1.0 GEBIET DER ERFINDUNG1.0 FIELD OF THE INVENTION
Diese
Erfindung bezieht sich auf das Gebiet der rechenbetonten Biologie.
Genauer bezieht sich die Erfindung auf ein Computersystem und ein
Verfahren zum Erkennen derjenigen Moleküle in einer Datenbank mit einem
oder mehreren Molekülen,
die Teilstrukturen gemeinsam mit einem oder mehreren Testmolekülen enthalten,
selbst wenn die Moleküle
in der Datenbank Atomgruppen enthalten, die die Freiheit haben,
um irgendwelche kovalenten Bindungen zu rotieren, die in solchen
Molekülen
vorhanden sein können
(Torsionselastizität).These
This invention relates to the field of computational biology.
More particularly, the invention relates to a computer system and a
Method for detecting those molecules in a database with a
or more molecules,
contain the partial structures together with one or more test molecules,
even if the molecules
contain in the database atomic groups that have the freedom
to rotate any covalent bonds in those
molecules
can be present
(Torsional).
2.0 HINTERGRUND
DER ERFINDUNG2.0 BACKGROUND
THE INVENTION
Da
der Inhalt vorhandener Informationsspeicher schneller verarbeitet
werden muss und eine größere Vielfalt
von Werkzeugen verfügbar
wird, spielt der Computer eine zunehmend wichtigere Rolle beim Führen und
Verbessern des Prozesses zum Auffinden und Entwerfen von Arzneimitteln.There
the content of existing information stores is processed faster
must be and a greater variety
available from tools
the computer plays an increasingly important role in guiding and
Improve the process of finding and designing medicines.
Einer
der grundlegenden Bestandteile der gegenwärtigen Annäherungen an diese Linie der
Forschungsbemühungen
ist der Wunsch gewesen, Moleküleigenschaften
zu berechnen, zu katalogisieren und zu suchen, die in den höchst grundlegenden
Ebenen der Arzneimittel-Wechselwirkungen eingeschlossen sind.one
the basic components of current approaches to this line of
research efforts
has been the desire, molecular properties
to calculate, catalog and search in the most basic
Levels of drug interactions are included.
Speziell
können
Computer den Forschern helfen, unwahrscheinliche Kandidaten von
vornherein rasch zu eliminieren, wodurch lange und teure Aktivitätsüberprüfungen vermieden
werden. Wichtiger noch, sie können
es den Forschern erlauben, neue, vielversprechende Verbindungen
zu identifizieren, basierend nur auf den verfügbaren Informationen über den
Rezeptorplatz oder über
andere Leitverbindungen.specially
can
Computers help researchers find unlikely candidates
rapidly eliminated, thereby avoiding long and expensive activity checks
become. More importantly, they can
allow researchers to make new, promising connections
to identify, based only on the available information about the
Receptor place or over
other routing connections.
Dadurch,
daß man
in der Lage ist, diese Aufgaben schnell durchzuführen und Informationen wiederzugewinnen,
die unmittelbar in die Formulierung der Suchstrategie für das Arzneimittel
eingegliedert werden können,
erwartet man, daß diese
komplexe, multidisziplinäre
Bemühung
stark vereinfacht wird und die Geschwindigkeit bedeutend erhöht wird,
mit der neue und wirkungsvollere Arzneimittel identifiziert, getestet
und auf den Markt gebracht werden.Thereby,
that he
is able to perform these tasks quickly and regain information,
directly in the formulation of the search strategy for the drug
can be integrated
one expects these
complex, multidisciplinary
effort
is greatly simplified and the speed is significantly increased,
identified with the new and more effective drugs, tested
and put on the market.
Bis
heute sind Hunderte von Proteinstrukturen mittels Röntgenstrahlkristallographie
und Verfahren der magnetischen Kernresonanzspektroskopie, abgekürzt als
(NMR = nuclear magnetic resonance) bestimmt worden. Diese Daten
sind als eine öffentliche
Quelle für
Daten von Molekülstrukturen
leicht verfügbar
und gestatten es Pharmakologen und Biologen, die verschiedenen Aspekte
der Proteinstrukturen und ihres komplizierten Verhaltens zu erforschen.
Zusätzlich
zu diesen öffentlichen
Datenbanken ist eine Anzahl anderer (öffentlicher und privater) Datenbanken über kleine
organische Moleküle
durch die Bemühungen
zahlreicher pharmazeutischer und biotechnologischer Firmen und Forschungsorganisationen
bereitgestellt worden.To
Today, hundreds of protein structures are by X-ray crystallography
and methods of nuclear magnetic resonance spectroscopy, abbreviated as
(NMR = nuclear magnetic resonance) has been determined. These dates
are considered a public
Source for
Data from molecular structures
easily available
and allow pharmacologists and biologists, the different aspects
of protein structures and their complicated behavior.
additionally
to these public
Databases is a set of other (public and private) databases about small ones
organic molecules
through the efforts
numerous pharmaceutical and biotechnology companies and research organizations
been provided.
Es
gibt mehrere unterschiedliche Szenarien, denen man bei dem Prozeß des Arzneimittelentwurfs wahrscheinlich
begegnet.
- 1. Es wird ein pharmakophores Modell
aus verschiedenen aktiven Molekülen
vorgeschlagen; man wünscht andere
Moleküle
zu finden, die entweder die pharmakophore Hypothese unterstützen oder
widerlegen.
- 2. Eine Anzahl ungeprüfter
Moleküle
kann eine biologische Aktivität
aufweisen; man wünscht
vorhandene Beziehungen zwischen der dreidimensionalen Struktur und
der Aktivität
auszunutzen, um möglicherweise vorhandene
biologische Eigenschaften abzuleiten.
- 3. Eine bestimmte Konformation eines vorgegebenen Liganden ist
als biologisch aktiv vorgeschlagen worden; es wird angenommen, daß eine dreidimensionale
Suche andere Moleküle
identifiziert, die dem Liganden gleichen. Siehe dazu etwa John H.
van Drie, David Weininger, Yvonne C. Martin: „Aladddin: An integrated tool
for computer-assisted molecular design and pharmacophore recognition
from geometric, steric, and substructure searching of three-dimensional
molecular structures",
Journal of Computer-Aided Molecular Design, 1989, Vol. 3, Seiten
225-251.
- 4. Die dreidimensionale Struktur eines Protein- oder DNA-Bindungsplatzes
ist über
kristallographische Studien verfügbar.
Liganden, die in den Bindungsplatz passen, werden in diesem Fall
gesucht. Die Suche kann durch Benutzen von Informationen über das
elektrostatische Verhalten für
einige der Atomgruppen an dem Platz gesteigert werden. Dieses Verfahren
wurde erfolgreich bei verschiedenen pharmazeutischen Firmen, wie
z.B. Merck, American Cyanamid, Agouron usw. angewandt, um Liganden
zu entwerfen, die das komplementäre
Transkriptase-Enzym von HIV binden und unterdrücken.
There are several different scenarios that are likely to be encountered in the drug design process. - 1. A pharmacophore model of various active molecules is proposed; one wishes to find other molecules that either support or disprove the pharmacophore hypothesis.
- 2. A number of unchecked molecules may have biological activity; one desires to exploit existing relationships between the three-dimensional structure and the activity to derive possibly existing biological properties.
- 3. A particular conformation of a given ligand has been proposed to be biologically active; It is believed that a three-dimensional search identifies other molecules that resemble the ligand. See, for example, John H. van Drie, David Weininger, Yvonne C. Martin: "Aladddin: An integrated tool for computer-assisted molecular design and pharmacophore recognition from geometric, steric, and substructure searching of three-dimensional molecular structures", Journal of Computer-Aided Molecular Design, 1989, Vol. 3, pp. 225-251.
- 4. The three-dimensional structure of a protein or DNA binding site is available via crystallographic studies. Ligands that fit into the binding site are searched in this case. The search can be enhanced by using information about the electrostatic behavior for some of the atomic groups in place. This method has been successfully applied to various pharmaceutical companies such as Merck, American Cyanamid, Agouron, etc., to design ligands that bind and suppress the HIV complementary transcriptase enzyme.
In
jedem dieser Fälle
müssen
die kritischen Informationen, die die Forscher in die Lage versetzen,
Hypothesen zu entwickeln, die möglicherweise
neue Molekülkandidaten
für die
Synthese und das Testen betreffen, durch eine Suche in einer möglicherweise
sehr großen
Datenbank mit relevanten Informationen wiedergewonnen werden. In
der Tat ist das zugrundeliegende gemeinsame Element für verschiedene
Stufen medizinisch-chemischer Untersuchungen die Notwendigkeit,
Datenbanken mit chemischen Informationen zu durchsuchen. Das Folgende
konzentriert sich auf den Fall, in dem die zu durchsuchenden Datenbanken
Strukturinformationen enthalten, die sich auf dreidimensionale Atomverbindungen
beziehen.In
each of these cases
have to
the critical information that enables researchers to
Hypotheses that may develop
new molecular candidates
for the
Concerning synthesis and testing, you might search through one
very big
Database with relevant information to be recovered. In
In fact, the underlying common element is different
Stages of medical-chemical investigations the need to
Search databases with chemical information. The following
focuses on the case in which the databases to be searched
Structure information contained, referring to three-dimensional atomic connections
Respectively.
Typischerweise
ist eine Verbindung/ein Molekül
C in der Form einer Menge von Koordinaten der Atomplätze der
Verbindung gegeben. Ebenfalls ist eine Datenbank D gegeben, d.h.
eine Sammlung von Mengen Dj = {...}. Dj = {...} ist eine Sammlung von Mengen von
Koordinaten der Atomplätze
für jedes
der Mitgliedermoleküle.
Das Verbinden der verschiedenen Atomplätze in sowohl C als auch den
Mitgliedern in der Datenbank sind Bindungen, von denen einige rotierbar
sein können
und daher eine Torsionselastizität
ermöglichen.
Torsionselastizität
bedeutet, daß die
Atomgruppen, die an den zwei Endpunkten einer (rotierbaren) Bindung
starr befestigt sind, im Hinblick aufeinander rotieren können. Jede
Verbindung/jedes Molekül
kann mehr als eine rotierbare Bindung enthalten, und daher kann
die Verbindung/das Molekül
jede einer unbegrenzten Anzahl von Konformationen (dreidimensionalen
Konfigurationen) mittels Rotationen um diese Bindungen annehmen.
Gelegentlich können
sterische Zwänge
oder Energiebetrachtungen die Anzahl der Wahlmöglichkeiten begrenzen, aber
die Mächtigkeit
der Menge möglicher
Konfigurationen bleibt trotzdem unbegrenzt. Diese Elastizität hinsichtlich
der Konformation von Molekülstrukturen
eröffnet
einen weiten Bereich von Möglichkeiten
in der Frage möglicher
Liganden, während
sie zur gleichen Zeit das Problem exponentiell schwieriger macht.
Zusätzlich
zu der (internen) Torsionselastizität können die Moleküle starre
Transformationen im dreidimensionalen Raum eingehen, d.h., das Molekül kann als
Ganzes rotieren und sich fortbewegen. Im folgenden wird auf die
Verbindung/das Molekül
C austauschbar Bezug genommen als 'Testverbindung' oder 'Testmolekül' oder 'Abfrageverbindung' oder 'Abfragemolekül'.Typically, a compound / molecule C is in the form of a set of coordinates of the atomic sites of the compound. There is also a database D, ie a collection of sets D j = {...}. D j = {...} is a collection of sets of atomic site coordinates for each of the member molecules. The joining of the various atomic sites in both C and the members in the database are bonds, some of which may be rotatable and therefore provide torsional elasticity. Torsional elasticity means that the groups of atoms rigidly attached to the two endpoints of a (rotatable) bond can rotate with respect to each other. Each compound / molecule may contain more than one rotatable bond and, therefore, the compound / molecule may adopt any of an infinite number of conformations (three-dimensional configurations) via rotations about these bonds. Occasionally, steric constraints or energy considerations may limit the number of choices, but the power of the set of possible configurations remains unlimited. This elasticity with respect to the conformation of molecular structures opens up a wide range of possibilities in the question of possible ligands, while at the same time making the problem exponentially more difficult. In addition to the (internal) torsional elasticity, the molecules can undergo rigid transformations in three-dimensional space, ie, the molecule can rotate and travel as a whole. Hereinafter, the compound / molecule C is interchangeably referred to as a 'test compound' or 'test molecule' or 'query compound' or 'query molecule'.
Bei
einer gegebenen Verbindung C und einer Datenbank D, die Informationen über die
3-dimensionale Struktur einer möglicherweise
großen
Menge von Molekülen
enthält,
müssen
die folgenden Vorgänge
definiert und ausgeführt
werden:
- 1. "Struktureinfügung": die Fähigkeit,
alles verfügbare
Strukturwissen über
die Verbindung C in die Datenbank D einzugliedern;
- 2. "Strukturmitgliedschaft": Bestimmung, ob
die Verbindung C bereits in der Datenbank D inbegriffen ist;
- 3. "Teilstruktursuche": identifiziere und
melde alle die Verbindungen der Mitglieder von D, die eine bestimmte
Teilstruktur der Verbindung C enthalten;
- 4. "Ähnlichkeitssuche": identifiziere und
melde alle die Verbindungen der Mitglieder von D, die der Verbindung
C ähnlich
sind. Um solch eine Operation auf der Datenbank D zu implementieren,
muß ein Ähnlichkeitsmaß d(.,.)
definiert und verfügbar
sein, und
- 5. "Überstruktursuche": identifiziere und
melde alle die Verbindungen der Mitglieder von D, die eine Teilstruktur
der Verbindung C sind.
For a given compound C and a database D containing information about the 3-dimensional structure of a potentially large set of molecules, the following operations must be defined and executed: - 1. "structural insertion": the ability to integrate all available structural knowledge into database D via compound C;
- 2. "Structural membership": determining whether the connection C is already included in the database D;
- 3. "partial structure search": identify and report all the compounds of the members of D that contain a particular sub-structure of compound C;
- 4. "Similarity search": identify and report all the compounds of members of D that are similar to compound C. In order to implement such an operation on the database D, a similarity measure d (.,.) Must be defined and available, and
- 5. "structure search": identify and report all the compounds of the members of D which are a substructure of compound C.
Vor
allem ist es leicht zu sehen, daß das Prädikat der Strukturmitgliedschaft
durch den Vorgang der Teilstruktursuche subsumiert wird. Darüberhinaus
können
alle der Suchvorgänge
auf das reduziert werden, auf das wir als "Teilstrukturähnlichkeit" Bezug nehmen werden.In front
In particular, it is easy to see that the predicate of structural membership
is subsumed by the process of partial structure search. Furthermore
can
all of the searches
reduced to that which we will refer to as "partial structure similarity".
Im
Folgenden wird der Ausdruck Teilstrukturähnlichkeit benutzt, um auf
einen einzelnen Vorgang Bezug zu nehmen, der, wenn eine Verbindung
C, eine Datenbank D und ein Ähnlichkeitsmaß d(.,.)
gegeben sind, die Bestimmung all der Verbindungsmitglieder in D
erlaubt, die eine Teilstruktur enthalten, die ähnlich der Teilstruktur von
C ist. Das Ausmaß der Ähnlichkeit
zwischen den in Frage stehenden Molekülen kann durch die Funktion
d(.,.) bestimmt werden. Die Auffassung hier ist, daß die implizierte gemeinsame
Teilstruktur nicht notwendigerweise eine korrekte Teilmenge von
C sein muß.
Die Ähnlichkeitsfunktion
d(.,.) bleibt unspezifiziert, aber wir nehmen an, daß sie von
einer sehr allgemeinen Art ist.in the
Hereinafter, the term partial structure similarity is used to refer to
to refer to a single operation when a connection
C, a database D and a similarity measure d (.,.
given, the determination of all the connection members in D
which contain a substructure similar to the substructure of
C is. The extent of similarity
between the molecules in question can by the function
d (.,.) are determined. The view here is that the implied common
Substructure does not necessarily have a correct subset of
C must be.
The similarity function
d (.,.) remains unspecified, but we assume that it is from
a very general kind.
Es
kann gezeigt werden, daß das
Problem der Teilstrukturübereinstimmung
NP-vollständig
ist durch Beachten, daß es
das Problem des Teilgraphen-Isomorphismus als Spezialfall einschließt. Die
Implikation der realen Welt dieser Feststellung besteht darin, daß die Zeitkomplexität für das Auffinden
aller optimalen Lösungen
eine Expotentialfunktion der Länge
der Eingabe ist und daher kein wirksamer Algorithmus (,d.h. einer
mit polynomischer Zeitkomplexität,)
existiert, um die optimalen Lösungen
zu finden. Die rechenbetonte Kompliziertheit des Problems wird weiter
zusammengesetzt durch das Zulassen von Torsionselastizität um die
kovalenten Bindungen des Moleküls
herum.It
can be shown that the
Problem of substructure match
NP-complete
is by observing that it
includes the problem of subgraph isomorphism as a special case. The
The implication of the real world of this finding is that the time complexity for finding
all optimal solutions
an expotential function of length
is not an effective algorithm (i.e., a
with polynomial time complexity,)
exists to the optimal solutions
to find. The computational complexity of the problem continues
composed by allowing torsional elasticity around the
covalent bonds of the molecule
around.
Vor
dem Beenden dieses Abschnittes sollte eine entscheidende Unterscheidung
beachtet werden. Dies ist die Unterscheidung zwischen 'Identifizierung' und 'Erkennung' derjenigen der Moleküle in der
Datenbank D, die der vorgegebenen Testverbindung/dem Molekül ähnlich C
sind. Identifizierung beschränkt
sich selbst auf das Melden nur der Identitäten der Moleküle in der
Datenbank D, die mit der Testverbindung/dem Molekül C übereinstimmen.
Auf der anderen Seite zieht die Erkennung nicht nur das Melden der
Identitäten der übereinstimmenden
Moleküle
nach sich, sondern auch die Bestimmung und das Melden der notwendigen Transformationen,
die jedes der identifizierten, übereinstimmenden
Moleküle
in die "beste Ausrichtung" mit der Testverbindung/dem
Testmolekül
bringt. ("Beste
Ausrichtung" positioniert
die Atomplätze
des Testmoleküls und
der übereinstimmenden
Moleküle
in der Datenbank in solch einer Weise, daß die Anzahl der Stellen in dem
dreidimensionalen Raum, die gleichzeitig durch die Atome des Testmoleküls und die
Atome jedes der übereinstimmenden
Moleküle
besetzt werden, die maximal mögliche
ist). Diese "notwendigen" Transformationen
schließen
Rotationen und Translationen der betrachteten Moleküle als Ganze
ein, aber auch Rotationen von Strukturen innerhalb der Moleküle rund
um die torsionselastischen Bindungen der Moleküle herum.In front
Ending this section should be a crucial distinction
get noticed. This is the distinction between 'identification' and 'recognition' of those of the molecules in the
Database D corresponding to the given test compound / molecule similar to C
are. Identification limited
itself on reporting only the identities of the molecules in the
Database D corresponding to the test compound / molecule C.
On the other hand, detection does not just involve reporting the
Identities of the matching
molecules
in itself, but also the determination and reporting of the necessary transformations,
each one of the identified, matching ones
molecules
in the "best orientation" with the test compound / the
test molecule
brings. ("Best
Orientation "positioned
the atomic places
of the test molecule and
the matching one
molecules
in the database in such a way that the number of digits in the
three-dimensional space, simultaneously through the atoms of the test molecule and the
Atoms each of the matching
molecules
be occupied, the maximum possible
is). These "necessary" transformations
shut down
Rotations and translations of the considered molecules as a whole
one, but also rotations of structures within the molecules around
around the torsional elastic bonds of the molecules around.
Erkennung
ist beweisbar ein viel schwierigeres Problem als Identifizierung;
dies ist besonders offensichtlich in dem Fall sehr großer Datenbanken
D mit Molekülen,
die torsionselastisch sind. Dies kommt vor, weil die Anzahl der
möglichen
Transformationen exponentiell mit der Anzahl der rotierbaren Bindungen
anwächst,
die die gezeigte Torsionselastizität zulassen: die rechenbetonten
Gesichtspunkte für
das Finden und Melden der richtigen Transformation nehmen allgemein
mit der Anzahl der Transformationen zu.recognition
is provably a much more difficult problem than identification;
this is especially evident in the case of very large databases
D with molecules,
which are torsionally elastic. This happens because the number of
potential
Transformations exponentially with the number of rotatable bonds
increases,
which allow the torsional elasticity shown: the computational stress
Points of view for
Finding and reporting the right transformation generally take
with the number of transformations too.
3.0 PROBLEME MIT DEM STAND
DER TECHNIK3.0 PROBLEMS WITH THE STAND
OF THE TECHNIQUE
Die
inhärente
rechenbetonte Kompliziertheit der Aufgabe der Teilstrukturähnlichkeit
hat typischerweise alle die früher
vorgeschlagenen Lösungswege
für das
Anpacken dieses Problems heimgesucht. Selbst wenn man das Problem
auf den Fall starrer Moleküle
mit keinen rotierbaren Bindungen beschränkt, bleibt das Problem hinsichtlich
der Rechenbetontheit wegen seiner dreidimensionalen Natur sehr anspruchsvoll.The
inherent
computational complexity of the task of substructure similarity
typically has all the earlier
proposed solutions
for the
Tackling this problem. Even if you have the problem
to the case of rigid molecules
with no rotatable bonds, the problem remains
The computing power is very demanding because of its three-dimensional nature.
Um
die Kompliziertheit der Aufgabe abzuschätzen, wird ein eindimensionales
Analogon aus dem täglichen
Leben dargestellt. Wenn ein Regal voll von Büchern und ein Satz wie der
"Bilden von 3D-Abfragen,
die sich einer bestimmten Elastizität in den Zielstrukturen anpassen
können,"
gegeben ist,
wird eine Suchaufgabe als die Notwendigkeit definiert, jedes Auftreten ähnlicher
Sätze in
der Menge der verfügbaren
Bücher
zu finden. Ähnlich
bedeutet in dem allgemeinsten Fall, daß ein Satz wie
"wir bilden eine 3D-Suchabfrage
so, daß sie
sich der gewünschten
Elastizität
anpaßt"
als eine gültige Übereinstimmung
gemeldet werden sollte. Mit anderen Worten sind Vorgänge wie
Ersetzen, Einfügen
und Löschen
der grundlegendsten Informationselemente (in diesem Fall der Buchstaben)
legitim und daher zulässig.
(In dem Fall von Molekülen
sind die grundlegendsten Informationselemente die Atome eines Moleküls.)To estimate the complexity of the task, a one-dimensional analogue from everyday life is presented. If a shelf full of books and a sentence like that
"Forming 3D queries that can adapt to a certain elasticity in the target structures,"
Given, a search task is defined as the need to find each occurrence of similar sentences in the set of available books. Similarly, in the most general case, a phrase like
"we create a 3D search query that adapts to the desired elasticity"
should be reported as a valid match. In other words, operations such as replacing, inserting, and deleting the most basic information elements (letters in this case) are legitimate and therefore permissible. (In the case of molecules, the most basic information elements are the atoms of a molecule.)
Ein
direkter Weg zum Lösen
dieser Aufgabe hat das Abtasten des Inhaltes all der Bücher auf
dem Regal in einer erschöpfenden,
linearen Weise zur Folge, d.h. von links nach rechts, von oben nach
unten, um alle ähnlichen
(in diesem Fall eindimensionalen) Strukturen zu lokalisieren. Es
ist klar, daß solch
eine Betriebsweise zunehmend mehr Zeit erfordert, wenn die Anzahl
der Bücher
in dem Regal (d.h. die Größe der Datenbank) zunimmt.One
direct way to solve
this task is the scanning of the contents of all the books
the shelf in an exhaustive,
linear manner, i. from left to right, from top to bottom
down to all the similar ones
(in this case one-dimensional) structures to locate. It
it is clear that such
An operation increasingly requires more time when the number
the books
on the shelf (i.e., the size of the database) increases.
Natürlich kann
eine Anzahl heuristischer Verfahren das Finden der Antwort erleichtern.
Zum Beispiel können
bestimmte Operationen nicht erlaubt sein oder die Suche würde auf
eine kleinere, gut spezifizierte Menge beschränkt; dieses beschränkt unmittelbar
die Anzahl der möglichen
Varianten für
einen gegebenen Satz und macht das Vorausberechnen und Speichern
alternativer Sätze
plausibel. Beim Suchen wird der Testsatz mit der Menge aller zulässigen vorherberechneten
Varianten verglichen.Of course you can
a number of heuristic procedures facilitate finding the answer.
For example, you can
Certain operations may not be allowed or the search would be on
a smaller, well-specified quantity limited; this limits immediately
the number of possible
Variants for
a given sentence and does the prediction and saving
alternative sentences
plausible. When searching, the test set will be precalculated with the set of all allowed
Variants compared.
Alternativ
können "Schlüssel" unter Benutzung
einer Teilmenge von Wörtern
innerhalb eines Fensters von vorgegebener Breite vorausberechnet
und gespeichert werden. Wenn sie mit einer Abfrage dargeboten werden,
berechnet das System die Menge von Schlüsseln für die Abfrage und benutzt sie,
um die Menge von Schlüsseln
zu suchen und zu finden, die für
alle die Sätze
in all den Büchern
berechnet wurden. Mit anderen Worten, anstatt die Sätze direkt
miteinander zu vergleichen, werden ihre "Stellvertreter" stattdessen verglichen, wieder in linearer
Weise.alternative
can use "keys" under usage
a subset of words
predicted within a window of predetermined width
and saved. When presented with a query,
the system calculates the set of keys for the query and uses them
around the amount of keys
to search and find that for
all the sentences
in all the books
were calculated. In other words, rather than the sentences directly
compared to each other, their "proxies" are compared instead, again in linear
Wise.
Eine
zu der obigen Suchaufgabe nach einem ähnlichen Satz analoge Situation
ist in dem Fall des Suchens nach ähnlichen Strukturen in Datenbanken
mit dreidimensionalen Molekülinformationen
vorhanden. Die folgende Darstellung typischer Verfahren hat die
Absicht, dazu zu verhelfen, die Gemeinsamkeiten und Unterschiede
früher
vorgeschlagener Lösungen
zu identifizieren.A situation analogous to the above search task for a similar set is present in the case of searching for similar structures in databases with three-dimensional molecular information. The following description of typical procedures is intended to help you understand the similarities and sub-topics to identify differences of previously proposed solutions.
Die
verschiedenen Verfahren, die über
die Jahre für
das Suchen in Datenbanken für
dreidimensionale Moleküle
vorgeschlagen wurden, unterscheiden sich grundlegend in ihrer Definition
und ihrer Benutzung des Ähnlichkeitsmaßes d(.,.),
das oben eingeführt
wurde. Wenn eine Testverbindung C und eine Datenbank D gegeben sind,
bewertet das Ähnlichkeitsmaß d(.,.)
das Ausmaß,
in dem C und ein gegebenes Mitglied von D ähnlich sind. Die durch Vergleichen
von C mit jedem der Mitgliedermoleküle in D erzeugten Werte erzeugen
ein "Testergebnis", das nachfolgend
dazu benutzt werden kann, um die Kandidatenantworten in der Reihenfolge abnehmender
Qualität
zu ordnen.The
different procedures over
the years for
searching in databases for
three-dimensional molecules
are fundamentally different in their definition
and their use of the similarity measure d (.,.),
that introduced above
has been. If a test connection C and a database D are given,
evaluates the similarity measure d (.,.)
the extent,
where C and a given member of D are similar. The by comparison
generate values generated by C with each of the member molecules in D.
a "test result" below
can be used to reduce the candidate responses in order of decreasing
quality
assign.
Zum
Beispiel wird bei dem "Atom-Abbildungs"verfahren der Tanimoto-Koeffizient
unter Benutzung des Ergebnisses der paarweisen Vergleiche der Zeilen
der Abstandsmatrizen zweier Moleküle berechnet. Dieser Koeffizient
wird als Eingabe in eine intermolekulare Ähnlichkeitsmatrix benutzt.
Diese Matrix wird in Verbindung mit einem gefräßigen Algorithmus benutzt,
um den Grad der Ähnlichkeit
zwischen den beiden Molekülen
zu bestimmen. Die Berechnung wird für alle Kombinationen zwischen
einem Abfragemolekül
C und jedem der Moleküle
in der Datenbank D wiederholt. Wie das der Fall bei gefräßigen Algorithmen
ist, sind keine Garantien dafür
vorhanden, daß der
Algorithmus alle die richtigen Lösungen
findet. Die Lösung
ist sehr rechenintensiv und steht in keinem guten Verhältnis zur
Größe der Datenbank.To the
For example, in the "atomic imaging" method, the Tanimoto coefficient
using the result of the pairwise comparisons of the rows
calculated from the distance matrices of two molecules. This coefficient
is used as input to an intermolecular similarity matrix.
This matrix is used in conjunction with a gluttonous algorithm
about the degree of similarity
between the two molecules
to determine. The calculation is made for all combinations between
a query molecule
C and each of the molecules
repeated in the database D. As is the case with gluttonous algorithms
is no guarantees
present that the
Algorithm all the right solutions
place. The solution
is very computationally intensive and is in no good relation to
Size of the database.
Bei
dem "Cliquenbestimmungs"-Verfahren wird eine
Anzahl verschiedener Orientierungen für jedes der Moleküle in der
Datenbank erzeugt, bevor der Vergleich mit dem Abfragemolekül C vorgenommen
wird. Jede der Orientierungen wird dann mit C überlagert und basierend auf
dem Vorhandensein oder Fehlen von Atomen in der Datenbank in der
Nachbarschaft eines Atomes von C eingestuft. Alle der Orientierungen,
die zu einer Einstufung kleiner als die maximale führen, werden
verworfen. Die Suche geht dann mit dem nächsten Molekül in der
Datenbank weiter. An jedem Punkt werden während der Suche die letzten
n besten Punktzahlen zurückbehalten.
Dieses Verfahren ist das Herz des Mosaiksystems zur Molekülmodellierung.at
the "clique determination" method becomes a
Number of different orientations for each of the molecules in the
Database created before the comparison with the query molecule C made
becomes. Each of the orientations is then overlaid with C and based on
the presence or absence of atoms in the database in the
Neighborhood of an atom of C classified. All of the orientations,
which will lead to a rating less than the maximum
discarded. The search then goes to the next molecule in the
Database continues. At any point during the search, the last
n best scores retained.
This procedure is the heart of the mosaic system for molecular modeling.
Bei
anderen Verfahren nach dem Stand der Technik werden die Molekülstrukturen
als Verbindungstabellen dargestellt und daher als Graphen betrachtet.
Die Scheitel jedes solchen Graphen entsprechen den Atomplätzen des
Moleküls.
Wenn eine Bindung zwischen zwei gegebenen Atomplätzen vorhanden ist, dann hat
der entsprechende Graph eine Kante, die die relevanten Knoten verbindet.
Wenn jedes Molekül
der Datenbank D durch einen Graphen dargestellt wird, kann man eine
Suche nach ähnlichen
Teilstrukturen unter Verwendung eines Algorithmus für Teilgraphen-Isomorphismus
durchführen.
Wie wir bereits oben erwähnt
haben, ist das Problem des Teilgraphen-Isomorphismus NP-vollständig, und
daher ist kein wirksamer Algorithmus vorhanden. Eine neuere Arbeit
verglich eine Anzahl verschiedener Algorithmen für den Teilgraphen-Isomorphismus
und lieferte den Beweis für
die Nützlichkeit
eines Suchalgorithmus, der durch das heuristische Verfahren der "Reinigungsprozedur" verbessert wurde.
Graphentheoretische Ergebnisse werden auch benutzt, um Ähnlichkeitsfunktionen
für das
Vergleichen von Molekülfragmenten
(Teilstrukturen) zu entwickeln.at
Other methods of the prior art are the molecular structures
represented as connection tables and therefore considered as graphs.
The vertices of each such graph correspond to the Atoms of the
Molecule.
If there is a bond between two given atoms, then
the corresponding graph is an edge connecting the relevant nodes.
If every molecule
The database D is represented by a graph, you can have a
Looking for similar
Substructures using a subgraph isomorphism algorithm
carry out.
As we mentioned above
The problem of the subgraph isomorphism is NP-complete, and
therefore there is no effective algorithm. A newer work
compared a number of different algorithms for the subgraph isomorphism
and provided the proof for
the usefulness
a search algorithm improved by the heuristic "cleaning procedure" procedure.
Graph theoretic results are also used to simulate similarity functions
for the
Comparing molecular fragments
(Substructures) to develop.
Eine
Variation des obigen Schemas beginnt mit dem Gruppieren all der
Moleküle
in der Datenbank D in verschiedene Gruppen. In diesem Fall wird
das Ähnlichkeitsmaß d(.,.)
zuerst benutzt, um die intermolekularen Ähnlichkeiten für alle die
Paare zu berechnen, die durch die Moleküle in D gebildet werden können. Anschließend wird
ein Gruppierungsschritt benutzt, um die verschiedenen Moleküle aufgrund
der Werte, die durch die paarweisen Vergleiche erzeugt wurden, in
Gruppen zu gruppieren. Wenn sie mit einem Abfragemolekül C dargeboten
wird, klassifiziert diese Lösung
C durch Identifizieren der Gruppe, zu der C gehört. Die Moleküle in der
Datenbank D, die am besten mit dem Afragemolekül C übereinstimmen, werden aus dieser
Gruppe wie auch aus der (den) benachbarten Gruppe(n) herausgezogen.A
Variation of the above scheme starts with grouping all of them
molecules
in the database D in different groups. In this case will
the similarity measure d (.,.)
First, it uses the intermolecular similarities for all the
Calculate pairs that can be formed by the molecules in D. Subsequently, will
a grouping step used to different the molecules due
of the values generated by the pairwise comparisons in
Group groups. When presented with a query molecule C
will classify this solution
C by identifying the group to which C belongs. The molecules in the
Database D, which most closely matches the Afragemolekül C, are from this
Group as well as from the neighboring group (s) pulled out.
Bis
jetzt wurde die Annahme gemacht, daß die zu betrachtenden Moleküle starre,
dreidimensionale Strukturen sind. Aber meistens ist dies nicht der
Fall. Gewöhnlich
besitzen Moleküle
verschiedene interne, rotierbare Bindungen und sind daher in der
Lage, ein Kontinuum von Konformationen, d.h. dreidimensionalen Konfigurationen,
anzunehmen. Gelegentlich können
sterische Zwänge
oder Energiebetrachtungen die Anzahl der Wahlmöglichkeiten begrenzen.To
now it was assumed that the molecules to be considered were rigid,
are three-dimensional structures. But most of the time this is not the case
Case. Usually
own molecules
different internal, rotatable bonds and are therefore in the
Able, a continuum of conformations, i. three-dimensional configurations,
to accept. Occasionally
steric constraints
or energy considerations limit the number of choices.
Das
Behandeln der Moleküle
in einer Datenbank als starr erleichtert die Suche in 3D-Datenbanken
auf Kosten des Verwerfens großer
Zahlen von gültigen
Kandidaten: obgleich die gespeicherte Konformation eines Moleküls nicht
das betrachtete pharmakophore Muster/Modell zeigen mag, kann eine
unterschiedliche Konformation des gleichen Moleküls biologisch aktiv sein. Daher
eröffnet
die Konformationselastizität
molekularer Strukturen einen weiten Bereich von Möglichkeiten bei
der Frage nach möglichen
Liganden. Aber gleichzeitig legt sie der Suchkomponente der üblichen
Lösungswege
eine schwere Bürde
auf.The
Treating the molecules
in a database as rigid facilitates the search in 3D databases
great at the expense of rejecting
Numbers of valid
Candidates: although the stored conformation of a molecule is not
the considered pharmacophore pattern / model may show a
different conformation of the same molecule to be biologically active. Therefore
open
the conformational elasticity
molecular structures a wide range of possibilities
the question of possible
Ligands. But at the same time, it puts the search component of the usual
solutions
a heavy burden
on.
Bei
einer gegebenen Datenbank D mit Molekülen hat eine direkte Lösung, die
es irgendeinem Suchalgorithmus ermöglicht, Suchvorgänge hinsichtlich
elastischer Konformationen in D durchzuführen, das Speichern all der
Konformationen jedes der Moleküle
D zur Folge. In der Praxis wird, wenn ein Kontinuum möglicher
Konformationen gegeben ist, stattdessen eine große Anzahl von repräsentativen
Konformationen gespeichert. Die Implikationen solch einer Lösung liegen
auf der Hand: die sich daraus ergebenden Datenbanken haben überwältigende
Größen, und
es sind sehr lange Suchzeiten notwendig. Eine andere Lösung, um
alle möglichen
Konformationen zu speichern, schließt das Speichern jedes Moleküls in nur
einer (oder einer Handvoll) der Konformationen ein. Zum Beispiel
benutzt das System Concord-3D eine Menge von Regeln, um eine einzelne
Konformation unter Benutzung der Verbindungstabellen des Moleküls zu erzeugen.
Diese Lösungen gehören im wesentlichen
zu einer Klasse von Verfahren, die die Elastizität in die Datenbank verlegt.at
a given database D with molecules has a direct solution that
It allows any search algorithm to search for
perform elastic conformations in D, saving all of them
Conformations of each of the molecules
D entailed. In practice, when a continuum becomes more possible
Conformations is given instead a large number of representative
Saved conformations. The implications of such a solution lie
obvious: the resulting databases have overwhelming
Sizes, and
very long search times are necessary. Another solution to
all possible
Storing conformations involves saving each molecule in only one
one (or a handful) of conformations. For example
The system Concord-3D uses a lot of rules to a single
Conformation using the compound tables of the molecule to produce.
These solutions essentially belong
to a class of procedure that relocates the elasticity into the database.
In
einer analogen Weise wendet eine Variante dieses Verfahrens einen
Satz von Regeln an (bestimmt durch das Durchführen einer systematischen Konformationsanalyse
auf Ketten verschiedener Kombinationen von 6 Hauptatomen), um den
Strukturraum zu prüfen
und nur bestimmte Torsionswinkel für jede rotierbare Bindung beizubehalten:
es wird ein Satz von Strukturen "niedriger
Energie" zusammen
mit ihren entsprechenden "Abschirmungen" erzeugt. Diese Abschirmungen
werden nachfolgend während
der tatsächlichen
Suche in der Datenbank benutzt. Bei einer dazu in Beziehung stehenden
Lösung
wird eine große
Anzahl von Konformationen eines Moleküls in der Datenbank während der
Suche erzeugt und mit dem pharmakophoren Muster verglichen. Dies
ist eine überdurchschnittlich
rechenbetonte Lösung,
und irgendwelche Versuche, (durch die Benutzung von heuristischen
Verfahren) diese Last zu verringern, haben einen direkten Einfluß auf die
Qualität der
erzeugten Ergebnisse: sonst gültige Übereinstimmungen
werden jetzt verfehlt. Beide dieser Verfahren sind für eine Klasse
von Verfahren repräsentativ,
die die Konformationselastizität
in die Suche verlegen.In
an analogous way, a variant of this method uses one
Set of rules (determined by performing a systematic conformational analysis
on chains of different combinations of 6 main atoms) to the
Check structure space
and to maintain only certain torsion angles for each rotatable bond:
it becomes a set of structures "lower
Energy "together
generated with their corresponding "shields". These shields
be subsequently during
the actual
Search used in the database. In a related
solution
will be a big one
Number of conformations of a molecule in the database during the
Search generated and compared with the pharmacophore pattern. This
is above average
computational solution,
and any attempts (through the use of heuristic
Method) to reduce this load, have a direct influence on the
Quality of
generated results: otherwise valid matches
are missed now. Both of these methods are for one class
representative of procedures,
the conformational elasticity
relocate to the search.
Es
gibt auch eine dritte Lösung,
bei der die Elastizität
in die Abfrage selbst gelegt wird. Die Abfrage kombiniert in diesem
Fall sowohl starre als auch elastische Komponenten und wird iterativ
durch das Durchsuchen einer Datenbank nach Verbindungen mit "bekannter" Aktivität verfeinert,
bis die gewünschte
Selektivität
erhalten wird. Nachdem die endgültige
Abfrage einmal verfügbar
ist, wird sie benutzt, um eine Datenbank mit Verbindungen mit "unbekannten" Aktivitäten zu durchsuchen,
um mögliche
Beispiele zu identifizieren. Siehe dazu etwa Osman F. Güner, Douglas
R. Henry, Robert S. Perlman: „Use
of Flexible Queries for Searching Conformationally Flexible Molecules
in Databases of Three-Dimensional Structures", J. Chem. Inf. Comput. Sci., 1992,
Vol. 32, Seiten 101-109.It
also gives a third solution,
at the elasticity
placed in the query itself. The query combines in this
Case both rigid and elastic components and becomes iterative
refined by searching a database for compounds with "known" activity,
until the desired
selectivity
is obtained. After the final
Query once available
is used to search a database of connections with "unknown" activities,
to possible
Identify examples. See about Osman F. Güner, Douglas
R. Henry, Robert S. Perlman: "Use
of Flexible Queries for Searching Conformationally Flexible Molecules
in Databases of Three-Dimensional Structures, J. Chem. Inf. Comput. Sci., 1992,
Vol. 32, pages 101-109.
Die
erfolgreicheren Suchverfahren greifen das Problem der Konformationselastizität in einer
hinsichtlich des Rechenaufwands anspruchsvollen Weise an; das Ergebnis
früherer
Arbeit war, dass elastisches, dreidimensionales Suchen, das die
von Clark et al. entwickelte Lösung
benutzte, ein Minimum einer hundertfachen Verlangsamung gegenüber dem
Fall der starren Übereinstimmung
herbeiführt.
Diese Verlangsamung erscheint typisch und unabhängig von dem tatsächlich benutzten
Verfahren zu sein.The
more successful search methods address the problem of conformational elasticity in one
demanding in terms of computational effort; the result
earlier
Work was that elastic, three-dimensional searching, that the
by Clark et al. developed solution
used, a minimum of a hundredfold slowdown compared to the
Case of rigid agreement
causes.
This slowdown appears typical and independent of the one actually used
To be method.
In
einer Vergleichsstudie von Haraki et al. wurde gezeigt, dass das
Vergrößern einer
Datenbank um mehrfache Konformationen eines bestimmten Moleküls generell
die Leistung eines Suchalgorithmus verbessert. Aber die gleiche
Studie bewies auch, dass die sich ergebende Effektivität in starkem
Maße von
dem Verfahren abhängt,
das benutzt wurde, um die verschiedenen Konformationen, die der
Datenbank hinzuzufügen waren,
zu erzeugen.In
a comparative study by Haraki et al. was shown that
Enlarge one
Database of multiple conformations of a particular molecule in general
improves the performance of a search algorithm. But the same
Study also proved that the resulting effectiveness in strong
Measures of
depends on the method
that was used to describe the different conformations that the
To add database,
to create.
Als
eine Alternative zu der mehrfachen Aufnahme eines Moleküls in die
Datenbank wird eine bestimmte Art der Minimierung in dem "Diskrepanzraum" ausgeführt. Diese
Lösung
ist viel schneller, erfordert aber bestimmte Beziehungen zwischen
der Anzahl der Strukturzwänge
und der Anzahl der rotierbaren Bindungen; darüberhinaus erbt sie alle die
Probleme nichtlinearer Optimierungslösungen.When
an alternative to the multiple inclusion of a molecule in the
Database, a certain type of minimization is performed in the "discrepancy space". These
solution
is much faster, but requires certain relationships between
the number of structural constraints
and the number of rotatable bonds; moreover, she inherits all of them
Problems of nonlinear optimization solutions.
Noch
eine andere Art des Verfahrens versucht im wesentlichen, starres
Andocken nur an den starren Unterteilen des Moleküls durchzuführen und
dann die Kompatibilität
der verschiedenen angedockten Teile in einer Phase nach der Verarbeitung
zu prüfen.
Dieses Verfahren ist generell hinsichtlich des Rechenbedarfs sehr
anspruchsvoll.Yet
another type of process essentially attempts to be rigid
Perform docking only on the rigid subparts of the molecule and
then the compatibility
the various docked parts in one phase after processing
to consider.
This method is generally very computationally demanding
demanding.
Eine
Reihe abgekürzter
Verfahren in der Form heuristischer Suchverfahren ist eingeführt worden,
um die Rechenbürde
etwas zu vermindern, aber nicht ohne ungünstigen Einfluß auf die
Qualität
der erzeugten Ergebnisse. Um dieser Feststellung entgegenzuwirken,
sind diese heuristischen Verfahren von einer allgemeineren Anwendbarkeit
und können
auch in dem Fall benutzt werden, in dem die Konformationselastizität nicht einer
der Parameter des Problems ist.A
Series abbreviated
Procedure in the form of heuristic search methods has been introduced,
to the arithmetic burden
to reduce something, but not without unfavorable influence on the
quality
the results generated. To counteract this finding,
These heuristics are of more general applicability
and can
also be used in the case where the conformational elasticity is not one
the parameter of the problem is.
Insbesondere
gibt ein bestimmter Stand der Technik eine sorgfältige Darstellung und führt eine
Vergleichsstudie einer Anzahl von Deskriptoren für die Zwecke der Überprüfung der
Datenbank aus. Die Deskriptoren überdecken
einen großen
Bereich von Eigenschaften der Moleküle in der Datenbank: physikalische,
chemische, geometrische wie auch verschiedene Kombinationen davon.
Die Unterscheidungsfähigkeit
von einigen der vorgeschlagenen Deskriptoren ist ermutigend, aber
die Ergebnisse sind unter Benutzung einer kleinen Datenbank mit
nur wenigen Tausend Verbindungen erhalten worden.Especially
is a certain prior art, a careful presentation and leads a
Comparative study of a number of descriptors for the purpose of reviewing the
Database off. Cover the descriptors
a big
Range of properties of the molecules in the database: physical,
chemical, geometric as well as various combinations thereof.
The discrimination ability
from some of the proposed descriptors is encouraging, though
the results are using a small database with
only a few thousand compounds have been obtained.
Die
zugehörige
Arbeit führt
ein Zweistufenverfahren ein, das im wesentlichen die Konformation
ohne die Notwendigkeit charakterisiert, ein große Zahl von Andockorientierungen
zu prüfen.
In der ersten Stufe wird eine Zahl aus 2048 Bits für jedes
der Moleküle
in der Datenbank durch Einsetzen geeigneter Bits in einen Bitvektor
erzeugt. Die einzusetzenden Bits werden aufgrund einer 32 Bitcodierung
für jedes
Dreieck ausgewählt, das
aus den drei Atomplätzen
in dem Molekül
gebildet wird. Ersichtlich fängt
die Zahl geometrische Eigenschaften ein, die für jedes Molekül spezielle
sind; jedoch ist die Darstellung aufgrund der Art, in der sie erzeugt wird,
nicht eindeutig. Während
der zweiten Stufe wird eine gleiche 2048 Bit-Codierung für das Testmolekül erzeugt
und mit jeder der gespeicherten Signaturen verglichen. Für diejenigen
Moleküle,
deren Signaturen einen Schwellwert überschreiten, werden erneut
Triplets von Atomplätzen
gebildet und mit den Triplets in dem Testmolekül auf Überschneidung verglichen. Obgleich
das Verfahren nicht die relative Orientierung zwischen einem Kandidaten
und dem Testmolekül
wiedergewinnt, scheint es als ein Filterschritt angemessen zu sein.The
associated
Work leads
a two-step process, which is essentially the conformation
characterized without the need for a large number of docking orientations
to consider.
In the first stage is a number of 2048 bits for each
of the molecules
in the database by inserting appropriate bits into a bit vector
generated. The bits to be used are based on 32-bit coding
for each
Triangle selected, the
from the three atoms
in the molecule
is formed. Obviously catches
the number of geometric features that are special for each molecule
are; however, the representation is due to the way in which it is generated
not unique. While
the second stage generates a same 2048 bit coding for the test molecule
and compared with each of the stored signatures. For those
molecules
whose signatures exceed a threshold will be redone
Triplets of Atoms
and compared to the triplets in the test molecule for overlap. Although
the procedure does not indicate the relative orientation between a candidate
and the test molecule
recovers, it seems to be appropriate as a filtering step.
In
all dem beschriebenen Stand der Technik stehen die Verfahren entweder
in keinem guten Verhältnis zu
der Größe der Datenbank
(aufgrund der Notwendigkeit einer seriellen Abfrage und der Verarbeitung
all der Einträge)
oder sie nutzen die Zwänge
nicht voll aus, die durch die rotierbaren Bindungen auferlegt werden,
um das Ausmaß der
Suche zu begrenzen.In
In all the prior art described, the methods are either
in no good relation to
the size of the database
(due to the need for a serial query and processing
all the entries)
or they use the constraints
not fully imposed by the rotatable bonds,
to the extent of
Limit search.
Anders
als die Verfahren, die eine lineare Abfrage der Datenbank D erfordern,
basieren Hash-Verfahren auf der Identifizierung bestimmter invarianter
Deskriptoren (Indizes), die benutzt werden können, um in einer Suchtabelle
eine Teildarstellung eines Moleküls
zu speichern. Kompatible Moleküle
können
durch Berechnen der Indizes aus einer Testeingabe, Wiederauffinden
der Teildarstellung aus der Suchtabelle und direktes Integrieren
des Ergebnisses wiedergefunden werden, wodurch die Notwendigkeit
eliminiert wird, die gesamte Datenbank nach einer oder mehreren Übereinstimmungen
abzufragen. Für
Moleküle
können
Indizes durch Benutzen von Tupeln von Atomen (z.B. Triplets) mit
Atomeigenschaften oder von Tupeln der Bruchstücke mit kleiner Oberfläche, die
ihren Normalen zugeordnet sind, und den chemischen Eigenschaften
an der Oberfläche
(zwei unabhängige
Bruchstücke
genügen
in diesem Fall) gebildet werden.Different
as the methods that require a linear query of database D,
Hash methods are based on the identification of certain invariants
Descriptors (indices) that can be used to search in a search table
a partial representation of a molecule
save. Compatible molecules
can
by calculating the indices from a test input, retrieval
the partial representation from the search table and direct integration
the result can be recovered, eliminating the need
eliminates the entire database after one or more matches
query. For
molecules
can
Using indices by using tuples of atoms (e.g., triplets) with
Atomic properties or tuples of small surface fragments, the
associated with their normals, and the chemical properties
on the surface
(two independent
fragments
suffice
in this case).
Bei
früherer
Arbeit wurde argumentiert, daß das
Benutzen von Indizes einer hochdimensionalen Art (mit einer großen Zahl
bestimmter Werte) für
das korrekte Verhalten dieser Verfahren schwierig ist, wenn die Größe der Datenbank
groß wird.
Zwei Hauptpunkte tragen zu diesem sehr allgemeinen Ergebnis bei.
Erstens sind Fächer
in einer Suchtabelle mit einer großen Menge von Fächern im
Durchschnitt weniger gedrängt.
Und zweitens kann eine grobere Quantisierung längs jeder der Indexdimensionen
benutzt werden, wodurch die Wahrscheinlichkeit des Wiedergewinnens
des gleichen Index während
des Wiederauffindens ähnlicher
Definitionseinheiten erhöht
wird.at
earlier
Work was argued that that
Using indices of a high-dimensional type (with a large number
certain values) for
The correct behavior of this procedure is difficult if the size of the database
gets big.
Two main points contribute to this very general result.
First, there are subjects
in a search table with a large amount of subjects in the
Average less crowded.
And secondly, a coarser quantization along each of the index dimensions
be used, thus reducing the likelihood of recovering
of the same index during
of retrieving more similar
Increased definition units
becomes.
Anders
aber als die auf der Abfrage basierenden Verfahren hat die Klasse
der Hash-Algorithmen die Speicheranforderungen erhöht. Insbesondere
leiten die verschiedenen Instanziierungen des Algorithmus ihre Geschwindigkeit
von dem Vorausberechnen der Ergebnisse ab und speichern sie in geeignet
aufgebauten Suchtabellen. Diese Vorausberechnung kann systemunabhängig durchgeführt werden,
erfolgt nur einmal, und die Ergebnisse werden auf einer Diskette
gespeichert und benutzt, wenn sie benötigt werden. Die Hash-Lösung tauscht
im wesentlichen Speicherplatz gegen Berechnung ein; angesichts der
abnehmenden Kosten für langsame
Speicher ist der Tausch zunehmend berechtigt und vernünftig.Different
but as the query-based method has the class
the hash algorithms increase the memory requirements. Especially
The different instantiations of the algorithm guide their speed
from predicting the results and storing them in appropriate
constructed search tables. This prediction can be carried out system-independently,
is done only once, and the results are on a floppy disk
stored and used, if needed. The hash solution swaps
essentially memory space against calculation; Given the
decreasing costs for slow
Memory, the exchange is increasingly justified and reasonable.
4.0 ZIELE
DER ERFINDUNG4.0 OBJECTIVES
THE INVENTION
Ein
Ziel dieser Erfindung ist ein verbessertes Computersystem und ein
Verfahren zum Identifizieren derjenigen Moleküle in einer Datenbank D, die
eine oder mehrere Moleküle
enthält,
die Teilstrukturen gemeinsam mit Teilstrukturen eines oder mehrerer
Testmoleküle
C enthalten, selbst wenn die Moleküle in der Datenbank Atomgruppen
enthalten, die die Freiheit haben, um irgendwelche kovalenten Bindungen
herum zu rotieren, die in dem Molekül vorhanden sein können (Torsionselastizität).One
The aim of this invention is an improved computer system and a
Method for identifying those molecules in a database D that
one or more molecules
contains
the substructures together with substructures of one or more
test molecules
C, even if the molecules in the database atomic groups
contain the freedom to have any covalent bonds
to rotate around, which may be present in the molecule (torsional elasticity).
5.0 ZUSAMMENFASSUNG DER
ERFINDUNG5.0 ABSTRACT OF THE
INVENTION
Dieses
System und dieses Verfahren identifizieren Moleküle und/oder Molekülteilstrukturen
in einer Datenbank, die ähnlich
oder identisch einem oder mehreren Testmolekülen und/oder Teilstrukturen
und/oder Teilen von Teilstrukturen dieser Testmoleküle sind.This
The system and method identify molecules and / or molecular substructures
in a database similar
or identical to one or more test molecules and / or substructures
and / or parts of partial structures of these test molecules.
Die
Erfindung benutzt einen Referenz-Speicherungsprozeß, um eine
Datenstruktur so zu besiedeln, daß die Datenstruktur alle der
Molekülstrukturen
und/oder Teilstrukturen in der Datenbank enthält, die gemäß Attributen von Tupeln klassifiziert
sind. Bei einem bevorzugten Ausführungsbeispiel
werden die Tupel von Plätzen
(z.B. Atomplätzen)
der Molekülstrukturen
(Teilstrukturen) abgeleitet, die gewählt wurden, um die Tupel zu erstellen,
und die Attribute sind geometrische (und andere) Informationen,
die zu den gewählten
Tupeln in Beziehung stehen. Die Attribute werden benutzt, um Indizes
in einer Datenstruktur zu definieren, die invarianten Vektorinformationen
(genannt Vektorinformationen) zugeordnet sind, die sich auf die
Moleküle
in der Datenbank D beziehen. Zum Beispiel können die invarianten Vektoren
rotierbare Bindungen in Referenzmolekülen in der Datenbank D darstellen.
Diese invarianten Vektoren (z.B. rotierbare Bindungen) werden in
schiefwinkligen, lokalen Koordinatenrahmen dargestellt, die aus
den Tupeln erstellt werden, die von starren Molekülteilstrukturen
abgeleitet werden, mit denen der (die) Vektor(en) verbunden ist
(sind). Diese Darstellungen sind invariant im Hinblick auf die Rotation
und die Translation der Molekülstrukturen
und/oder der Rotation von Teilstrukturen um die zugehörige rotierbare
Bindung. Demgemäß können invariante
Vektorinformationen, die sich auf Moleküle in der Datenbank beziehen,
im Hinblick auf die Tupelattribute durch Speichern der invarianten Vektorinformationen
in Speicherstellen (Vektorfeldern) der Datenstruktur klassifiziert
werden, die dem Index zugeordnet sind, der von dem betreffenden
Tupel abgeleitet wird. Nachdem die Datenstruktur einmal besiedelt ist,
schafft ein Vergleichsprozeß ein
oder mehrere Tupel, schiefwinklige, lokale Referenzrahmen und Indizes (genannt
Testrahmen-Tupelindizes)
für die
Struktur (Teilstrukturen) eines Testmoleküls unter Benutzen des gleichen
Verfahrens, das benutzt wurde, um die Datenstruktur zu besiedeln.
Der Tupelindex des Testrahmens wird benutzt, um auf die invarianten
Vektorinformationen zuzugreifen, die sich in dem Vektorfeld des
Datenstrukturindexes befinden, der mit dem Index des Testrahmens übereinstimmt.
Eine Zählung
der Häufigkeit
von übereinstimmenden
Vektorinformationen (Indizes) der Molekülstrukturen (Teilstrukturen
und/oder Teilen) in der Datenbank mit den Tupelindizes des Testrahmens,
die für
das Testmolekül
erzeugt wurden, wird festgehalten, um zu bestimmen, welche Molekülstrukturen
(Teilstrukturen und/oder Teile) identisch oder ähnlich mit denjenigen in der
Datenbank übereinstimmen.The
Invention uses a reference storage process to create a
Data structure to be populated so that the data structure of all the
molecular structures
and / or substructures in the database classified according to attributes of tuples
are. In a preferred embodiment
become the tuples of places
(e.g., atoms)
the molecular structures
Derived (substructures) that were chosen to create the tuples,
and the attributes are geometric (and other) information,
the ones chosen
Tuples are related. The attributes are used to create indexes
in a data structure, the invariant vector information
(called vector information) are assigned, referring to the
molecules
refer to the database D. For example, the invariant vectors
represent rotatable bonds in reference molecules in the database D.
These invariant vectors (e.g., rotatable bonds) are disclosed in U.S. Pat
skewed, local coordinate frames shown off
The tuples are created by rigid molecular substructures
are derived, with which the vector (s) is connected
(are). These representations are invariant with regard to rotation
and the translation of the molecular structures
and / or the rotation of substructures about the associated rotatable one
Binding. Accordingly, invariant
Vector information related to molecules in the database
with regard to the tuple attributes by storing the invariant vector information
classified in memory locations (vector fields) of the data structure
which are assigned to the index, that of the relevant
Tuple is derived. Once the data structure is populated,
creates a comparison process
or multiple tuples, oblique, local reference frames and indices (called
Test frame Tupelindizes)
for the
Structure (substructures) of a test molecule using the same
Method used to populate the data structure.
The tuple index of the test frame is used to reference the invariant ones
Vector information that is in the vector field of the
Data structure index that matches the index of the test frame.
A count
the frequency
of matching
Vector information (indices) of the molecular structures (substructures
and / or parts) in the database with the tuple indexes of the test frame,
the for
the test molecule
is recorded to determine which molecular structures
(Substructures and / or parts) identical or similar to those in the
Database match.
6.0 KURZE BESCHREIBUNG
DER ZEICHNUNGEN6.0 SHORT DESCRIPTION
THE DRAWINGS
Die
vorstehenden und andere Ziele, Aspekte und Vorteile der Erfindung
werden besser anhand der folgenden detaillierten Beschreibung bevorzugter
Ausführungsbeispiele
der Erfindung mit Bezugnahme auf die Zeichnungen verstanden, die
wie folgt beschrieben werden:The
The foregoing and other objects, aspects and advantages of the invention
will be better appreciated from the following detailed description
embodiments
of the invention with reference to the drawings, which
as follows:
1 ist
ein Blockdiagramm eines Computersystems, das die vorliegende Erfindung
verwirklicht. 1 Figure 11 is a block diagram of a computer system embodying the present invention.
2A ist
ein Diagramm einer Molekülstruktur,
die starre Teilstrukturen von Atomgruppen in dem Molekül zeigt,
die Rotationsnatur einer typischen Rotationsbindung zwischen starren
Teilstrukturen, einen globalen Koordinatenrahmen, einen schiefwinkligen,
lokalen Koordinatenrahmen, ein "Rahmentupel", das den schiefwinkligen,
lokalen Koordinatenrahmen definiert, und eine Darstellung eines
invarianten Vektors, der zwei Punkte auf einer oder mehreren starren
Strukturen verbindet, und eine erste Konformation der Molekülstruktur. 2A Figure 12 is a diagram of a molecular structure showing rigid substructures of atomic groups in the molecule, the rotational nature of a typical rotational bond between rigid substructures, a global coordinate frame, a skewed, local coordinate frame, a "frame tuple" defining the skewed, local coordinate frame, and a Representation of an invariant vector connecting two points on one or more rigid structures and a first conformation of the molecular structure.
2B ist
ein Diagramm, das eine zweite Molekülkonformation der Molekülstruktur
zeigt, den globalen Koordinatenrahmen, den schiefwinkligen, lokalen
Koordinatenrahmen und den invarianten Vektor nach 2A. 2 B is a diagram showing a second molecular conformation of the molecular structure, the global coordinate frame, the skewed, local coordinate frame, and the invariant vector 2A ,
3 ist eine Folge von Zeichnungen, die
zeigen, wie die Platzmengen K-O definiert sind (3A), Attrappenplätze Du definiert
sind und dann benutzt werden (3B) und
wie Tupeln (3B-3E) definiert sind
durch Auswählen
einer Menge mit einem oder mehreren Atomplätzen und/oder Attrappenplätzen Du
der Molekülstruktur. 3 is a sequence of drawings that show how the sets KO are defined ( 3A ), Dummy places you are defined and then used ( 3B ) and like tupling ( 3B - 3E ) are defined by selecting a set having one or more atoms and / or dummy sites of the molecular structure.
4 ist
ein Blockdiagramm einer Datenstruktur, die einen Index, der einem
Tupel entspricht, den Vektorinformationen zuordnet, die der Darstellung
eines invarianten Vektors in jedem der schiefwinkligen, lokalen
Koordinatenrahmen des Tupels entsprechen, das den Index erzeugt. 4 Figure 12 is a block diagram of a data structure that associates an index corresponding to a tuple with vector information corresponding to the representation of an invariant vector in each of the skewed, local coordinate frames of the tuple that generated the index.
5, die die 5A, 5B und 5C umfaßt, ist
ein Flußdiagramm,
das die Schritte des Besiedelns der Datenstruktur nach 4 zeigt,
um Strukturinformationen und andere Informationen über eines
oder mehrere Referenzmoleküle
zu erhalten. 5 that the 5A . 5B and 5C is a flow chart showing the steps of the Besie according to the data structure 4 to obtain structural information and other information about one or more reference molecules.
6, die die 6A, 6B und 6C umfaßt, ist
ein Flußdiagramm
eines bevorzugten Verfahrens, das die Schritte des Bestimmens zeigt,
welche Referenzmoleküle
in der Bibliothek (Datenbank D), die ein oder mehrere Moleküle enthält, für eine ausgewählte Menge
einer oder mehrerer Moleküleigenschaften
einem Testmolekül ähnlich sind
(= mit ihm übereinstimmen). 6 that the 6A . 6B and 6C is a flow chart of a preferred method showing the steps of determining which reference molecules in the library (database D) containing one or more molecules are similar to (= compatible with) a test molecule for a selected set of one or more molecular properties ).
7 ist
ein Blockdiagramm einer Abstimmungstabelle, die benutzt wird, um
die relative Häufigkeit (Vielfachheit
der Werte) der Identitäten
derjenigen Moleküle
und/oder Molekülteilstrukturen
in der Datenbank D zu bestimmen, die mit dem Testmolekül für eine gegebene
Menge von Moleküleigenschaften übereinstimmen. 7 FIG. 12 is a block diagram of a tuning table used to determine the relative abundance (multiplicity of values) of the identities of those molecules and / or molecular substructures in the database D that match the test molecule for a given set of molecular properties.
7.0 GENAUE BESCHREIBUNG
DER ERFINDUNG7.0 DETAILED DESCRIPTION
THE INVENTION
Es
wird jetzt auf die Zeichnungen und insbesondere auf 1 Bezug
genommen. Dort ist die Blockdiagrammdarstellung der Hardwareumgebung 100 eines
Mehrzweckrechners dargestellt. Dieser Computer 100 kann
ein Personalsystem/2 (PS/2) aus der Familie von Personalcomputern
der International Business Machines Corporation (IBM) sein, ein
RISC-System/6000 oder ein System mit paralleler Leistung (SP/x).
Das System 100 schließt
eine oder mehrere Zentraleinheiten (ZE) 10 ein, die der
x86-Architektur von Intel entsprechen können oder Mikroprozessoren
mit verringertem Befehlssatz sein können. Die ZE 10 ist
an einen Systembus 12 angeschlossen, an den ein Schreib-/Lesespeicher
und/oder ein Speicher 14 mit wahlfreiem Zugriff, abgekürzt als
(RAM = Random Access Memory), der einen oder mehrere Cache-Speicher einschließen kann,
angeschlossen ist, ein Festspeicher 16, abgekürzt als
(ROM = Read Only Memory), ein Ein-/Ausgabe-Adapter 18, abgekürzt als
E-/A-Adapter, und ein Adapter 22 einer Benutzungsschnittstelle.
Der RAM 14 sorgt für
die zeitweilige Speicherung eines oder mehrerer Anwendungsprogramme 40,
die Code und/oder Daten enthalten, während der ROM 16 typischerweise
den Code des Basis-Ein-/Ausgabe-Systems, abgekürzt als (BIOS = Basic Input/Output
System) enthält.
Der E-/A-Adapter 18 ist mit einem oder mehreren Speichergeräten für direkten
Zugriff, abgekürzt
als (DASD = Direct Access Storage Device), hier dargestellt als
Diskettenlaufwerk 19, einem Festplattenlaufwerk 20 und
einem CD-ROM 21 verbunden.
Das Festplattenlaufwerk 20 speichert typischerweise das
Betriebssystem, abgekürzt
als (OS = Operating System) des Computers, z.B. das Betriebssystem
OS/2 von IBM, und verschiedene Anwendungsprogramme, Daten und/oder
Datenbanken 50, von denen jede selektiv über den
Systembus 12 in den RAM 14 geladen werden kann.
Der Adapter 22 der Benutzungsschnittstelle ist mit einer
Tastatur 24, einer Steuerkugel 26 und/oder anderen
(nicht dargestellten) Geräten
der Benutzungsschnittstelle verbunden.It will now be on the drawings and in particular on 1 Referenced. There is the block diagram representation of the hardware environment 100 a multi-purpose computer shown. This computer 100 may be a Personal System / 2 (PS / 2) from the family of personal computers of International Business Machines Corporation (IBM), a RISC system / 6000 or a parallel power system (SP / x). The system 100 closes one or more central units (ZE) 10 which may conform to Intel's x86 architecture or may be microprocessors with a reduced instruction set. The ZE 10 is to a system bus 12 connected to a read / write memory and / or memory 14 random access memory (RAM), which may include one or more caches, is a non-volatile memory 16 , abbreviated as (ROM = Read Only Memory), an input / output adapter 18 , abbreviated as an I / O adapter, and an adapter 22 a user interface. The RAM 14 provides temporary storage of one or more application programs 40 containing code and / or data during the ROM 16 typically contains the code of the basic I / O system, abbreviated as (Basic Input / Output System). The I / O adapter 18 is one or more direct access storage devices, abbreviated as (DASD = Direct Access Storage Device), shown here as a floppy disk drive 19 , a hard drive 20 and a CD-ROM 21 connected. The hard disk drive 20 typically stores the operating system, abbreviated as (OS) operating system of the computer, for example, the OS / 2 operating system of IBM, and various application programs, data and / or databases 50 , each of which is selective over the system bus 12 in the RAM 14 can be loaded. The adapter 22 The user interface is with a keyboard 24 , a control ball 26 and / or other devices (not shown) of the user interface.
Das
System 100 kann auch eine Anzeigeeinheit 38 einschließen, die
hier als eine Kathodenstrahlröhren-Anzeigeeinheit,
abgekürzt
als (CRT = Cathode Ray Tube)-Anzeigeeinheit dargestellt ist, die
aber auch eine Flüssigkristall-Anzeigeeinheit,
abgekürzt
als (LCD = Liquid Crystal Display) oder eine andere geeignete Anzeigeeinheit
und/oder eine graphische Benutzungsschnittstelle, abgekürzt als
(GUI = Graphic User Interface) sein kann. Die Anzeigeeinheit 38 ist über einen
Anzeigeadapter 36 mit dem Systembus 12 verbunden. Ein
Multimedia-Adapter 34, wie z.B. der ActionMedia II-Anzeigeadapter
der Firma Intel Corporation kann auch mit dem Bus 12 verbunden
sein und mit einem Mikrophon 32 und einem Lautsprecher 28.
Der Multimedia-Adapter 34 wird durch geeignete Software
unterstützt,
wie z.B. den Multimedia-Präsentationsmanager/2.
Diese Systeme 100 und Äquivalente
dieser Systeme sind den Fachleuten gut bekannt.The system 100 can also be a display unit 38 which is shown here as a CRT display unit, abbreviated as CRT (Cathode Ray Tube) display unit, but also includes a liquid crystal display unit abbreviated as (LCD = Liquid Crystal Display) or other suitable display unit and / or a graphical user interface, abbreviated as (GUI = Graphic User Interface) can be. The display unit 38 is via a display adapter 36 with the system bus 12 connected. A multimedia adapter 34 , such as the ActionMedia II display adapter from Intel corporation can also use the bus 12 be connected and with a microphone 32 and a speaker 28 , The multimedia adapter 34 is supported by suitable software, such as the Multimedia Presentation Manager / 2. These systems 100 and equivalents of these systems are well known to those skilled in the art.
Personal
System/2, PS/2, RISC-System/6000, Power Parallel System, SP/x und
IBM sind Warenzeichen der International Business Machines Corporation.staff
System / 2, PS / 2, RISC system / 6000, Power Parallel System, SP / x and
IBM are trademarks of International Business Machines Corporation.
Einige
der Anwendungsprogramme 40 werden unten als Prozeßverfahren
beschrieben. Datenbanken 50 für Moleküldaten, die auch unten beschrieben
werden, werden typischerweise in den Speichergeräten gespeichert, z.B. in dem
Festplattenlaufwerk 20.Some of the application programs 40 are described below as process procedures. databases 50 for molecular data, also described below, are typically stored in the storage devices, eg in the hard disk drive 20 ,
2A ist
ein Diagramm einer Molekülstruktur 200,
die starre Teilstrukturen (210, 220) von Atomgruppen
in dem Molekül 200 zeigt,
die Rotationsnatur 215 einer typischen rotierbaren Bindung 218 zwischen
starren Teilstrukturen (210, 220), einen globalen
Koordinatenrahmen 235, einem schiefwinkligen, lokalen Koordinatenrahmen 245,
ein "Rahmentupel", das den schiefwinkligen,
lokalen Koordinatenrahmen 245 definiert, und eine Darstellung
eines invarianten Vektors 238, der zwei Punkte (D, G) auf
einer oder mehreren starren Teilstrukturen (210, 220),
verbindet, und eine erste Konformation 200 der Molekülstruktur. 2A is a diagram of a molecular structure 200 , the rigid substructures ( 210 . 220 ) of atomic groups in the molecule 200 shows the rotation nature 215 a typical rotatable bond 218 between rigid substructures ( 210 . 220 ), a global coordinate frame 235 , a skewed, local coordinate frame 245 , a "frame tuple" representing the skewed, local coordinate frame 245 defined, and a representation of an invariant vector 238 containing two points (D, G) on one or more rigid substructures ( 210 . 220 ), and a first conformation 200 the molecular structure.
Unten
werden einige der Ausdrücke,
die ausgiebig in dem Text benutzt werden, definiert und erläutert.Below
become some of the expressions,
which are extensively used in the text, defined and explained.
Eine
Molekülstruktur
(200, 250) ist eine Menge von Atomen (z.B. A-P),
die miteinander durch chemische Bindungen, typischerweise MO, verbunden
sind. (Bindungen werden durch Buchstabenpaare bezeichnet, die den
beiden Atomen entsprechen, die durch die Bindung verbunden werden).
Im allgemeinen wird die Molekülstruktur 200 typischerweise
definiert durch eine Menge von Koordinaten für die Plätze, die von den verschiedenen
Atomen besetzt werden. Zum Beispiel definieren die Koordinaten (x,
y, z) die Position des Atoms O in dem globalen (Laboratoriums-)
Koordinatenrahmen 235. Der globale Koordinatenrahmen 235 wird
für die Zwecke
der Analyse unten als fest und konstant angenommen.A molecular structure ( 200 . 250 ) is an amount of atoms (eg, AP) linked together by chemical bonds, typically MO. (Bindings are denoted by pairs of letters that correspond to the two atoms joined by the bond). In general, the molecular structure becomes 200 typically defined by a set of coordinates for the places occupied by the different atoms. For example, the coordinates (x, y, z) define the position of the atom O in the global (laboratory) coordinate frame 235 , The global coordinate frame 235 is assumed to be fixed and constant for the purposes of the analysis below.
Darüberhinaus
definiert auch eine Liste der chemischen Bindungen, die die Plätze miteinander
verbinden, z.B. MO, auch die Molekülstruktur 200. Den
verschiedenen Plätzen
(A-P) der Molekülstruktur 200 und/oder
den entsprechenden Atomen, die diese Plätze in dem globalen Koordinatenrahmen 235 besetzen, werden
typischerweise Marken gegeben (zum Beispiel: eine Zahl), die sie
voneinander unterscheidet. Für
unsere Zwecke benutzen wir austauschbar einen Buchstaben (z.B. A-P)
und/oder eine Zahl, um das Atom und/oder den Platz, an dem sich
das Atom befindet, in dem globalen Koordinatenrahmen 235 zu
kennzeichnen.In addition, a list of chemical bonds connecting sites, eg, MO, also defines the molecular structure 200 , The different places (AP) of the molecular structure 200 and / or the corresponding atoms that occupy these places in the global coordinate frame 235 occupy brands are typically given (for example: a number), which distinguishes them from each other. For our purposes we interchangeably use a letter (eg AP) and / or a number around the atom and / or the place where the atom is located in the global coordinate frame 235 to mark.
Schließlich ist
zusätzlich
zu der Liste der Platzkoordinaten und der Liste der chemischen Bindungen eine
Liste von Atomarten (z.B. N, C, O, H usw.) für jedes der Atome vorgesehen,
die die verschiedenen Plätze der
Molekülstruktur
besetzen.Finally is
additionally
to the list of place coordinates and the list of chemical bonds one
List of atomic species (e.g., N, C, O, H, etc.) for each of the atoms,
the different places of the
molecular structure
occupy.
Beachte,
daß gelegentlich
eine Molekülstruktur
unter Benutzung der Liste der chemischen Bindungen und der Liste
von Atomarten für
jedes der Atome angegeben wird, die an der Struktur teilhaben. Eine
Molekülstruktur,
die in solch einer Weise definiert ist, ist auf keinen Fall unbestimmt:
in der Tat können
die Koordinaten der Atomplätze
aus den gegebenen Informationen unter Benutzung einer Vielzahl von
Standardverfahren wiederhergestellt werden.Note
that occasionally
a molecular structure
using the list of chemical bonds and the list
of atomic species for
each of the atoms involved in the structure is stated. A
Molecular Structure,
which is defined in such a way is by no means indefinite:
in fact you can
the coordinates of the atomic sites
from the given information using a variety of
Standard procedures are restored.
Eine
Bindung, MO, stellt eine chemische Verbindung zwischen zwei Atomen
(M, O) in der Molekülstruktur 200 dar.
Bindungen werden typischerweise in der Form von Marken definiert,
die zwei Atomplätzen zugeordnet
sind, die die Bindung verbindet.A bond, MO, provides a chemical link between two atoms (M, O) in the molecular structure 200 Bonds are typically defined in the form of labels associated with two atoms connecting the bond.
Einige
der Bindungen in einem gegebenen Molekül können rotierbar sein und lassen
daher die Torsionselastizität 215 zu:
die starren Teilstrukturen (210, 220) sind mit
zwei Endpunkten einer rotierbaren Bindung verbunden und können daher
in Beziehung zueinander rotieren 215.Some of the bonds in a given molecule can be rotatable and therefore leave the torsional elasticity 215 to: the rigid substructures ( 210 . 220 ) are connected to two end points of a rotatable bond and can therefore rotate in relation to each other 215 ,
Innerhalb
jeder der beiden starren Teilstrukturen (210, 220)
auf jeder Seite einer rotierbaren Bindung 218 sind Atome
durch Bindungen miteinander verbunden, die keine solche Torsionselastizität (nicht
rotierbare Bindungen – AC,
MO) zulassen. Dies trifft für
den allgemeinen Fall nicht zu: dort sind Molekülstrukturen vorhanden, die
eine gelenkartige Elastizität
zeigen, aber eine Behandlung dieser Teilstrukturen sprengt den Umfang
dieser Analyse. Daher sind starre Teilstrukturen (210, 220)
Strukturen eines oder mehrerer Atome, die miteinander durch nichtrotierbare
Bindungen verbunden sind. Gruppen, die aus einem Atom, P, bestehen,
das durch Bindungen wie NP an eine Menge von Atomen wie G, H, I,
J, K, L, M, N und O gebunden sind, werden nicht als getrennte, starre
Teilstrukturen betrachtet trotz der Tatsache, dass die Bindung NP
rotierbar sein kann. Dies ist so, weil jede Rotation eines Atoms
P um die Bindung NP nicht die Stelle von P in dem globalen Koordinatenrahmen 235 ändert. Darüber hinaus ändert jede
Rotation des Atoms P um die Bindung NP nicht den Platz von P hinsichtlich
der Menge von Atomen G, H, I, J, K, L, M, N und O. Beachte, dass
auch starre Moleküle,
d.h. diejenigen Moleküle,
die keine rotierbaren Bindungen enthalten, als Moleküle einer
starren Teilstruktur definiert werden können; in solch einem Fall ist
das gesamte Molekül
die Teilstruktur (210, 220).Within each of the two rigid substructures ( 210 . 220 ) on each side of a rotatable bond 218 Atoms are bound together by bonds that do not allow such torsional elasticity (non-rotatable bonds - AC, MO). This is not true for the general case: there are molecular structures that show a hinge-like elasticity, but treatment of these substructures goes beyond the scope of this analysis. Therefore, rigid substructures ( 210 . 220 ) Structures of one or more atoms connected to each other by nonrotatable bonds. Groups consisting of an atom, P, bound by bonds such as NP to a set of atoms such as G, H, I, J, K, L, M, N, and O are not considered as separate, rigid substructures despite the fact that the bond NP can be rotatable. This is because any rotation of an atom P around the bond NP does not represent the location of P in the global coordinate frame 235 changes. Moreover, any rotation of the atom P around the bond NP does not change the place of P with respect to the set of atoms G, H, I, J, K, L, M, N and O. Note that even rigid molecules, ie those molecules which contain no rotatable bonds, can be defined as molecules of a rigid substructure; in such a case the whole molecule is the substructure ( 210 . 220 ).
Beachte
auch, daß das
Definieren der Koordinaten (x, y, z) der drei oder mehr Atome (Plätze) (z.B. G-P)
einer gegebenen starren Teilstruktur 220 in dem globalen
Koordinatenrahmen 235 genügt, um eine globale Position
OO' und eine globale
Orientierung (O'x', O'y', O'z') für die starre
Teilstruktur 220 in dem globalen Koordinatenrahmen 235 zu
definieren. Beachte außerdem,
daß die
Menge der drei oder mehr Atome (Plätze), die die globale Position
und Orientierung für
die starre Teilstruktur 220 definieren, das Atom (den Platz)
D einschließen
können,
da die Rotation 215 rund um die rotierbare Bindung 218 der
starren Teilstruktur 210 hinsichtlich der starren Teilstruktur 220 die
Position des Atoms (des Platzes) D hinsichtlich der starren Teilstruktur 220 nicht ändert. In
gleicher Weise könnte
beim Definieren einer globalen Position und Orientierung für die starre
Teilstruktur 210 die Menge von drei oder mehr Atomen (Plätzen) das
Atom (den Platz) G zusätzlich
zu den Atomen (Plätzen)
A-F einschließen.Also note that defining the coordinates (x, y, z) of the three or more atoms (squares) (eg GP) of a given rigid substructure 220 in the global coordinate frame 235 is enough to have a global position OO 'and a global orientation (O'x', O'y ', O'z') for the rigid substructure 220 in the global coordinate frame 235 define. Also note that the set of three or more atoms (squares) indicates the global position and orientation for the rigid substructure 220 define the atom (the place) D can include, as the rotation 215 around the rotatable binding 218 the rigid substructure 210 with regard to the rigid substructure 220 the position of the atom (the place) D in terms of the rigid substructure 220 does not change. Similarly, when defining a global position and orientation for the rigid substructure 210 the amount of three or more atoms will include the atom G in addition to the atoms AF.
Folglich
hat der Vektor 238, der unten definiert ist, eine starre
Position und Orientierung im Hinblick auf jede starre Teilstruktur 210 oder 220,
die die rotierbare Bindung 218 verbindet. Dies tritt ein,
weil die Position und Orientierung der rotierbaren Bindung 218 hinsichtlich
jeder starren Teilstruktur sich nicht ändert trotz der Rotation in
dem globalen Koordinatenrahmen 235 jeder der beiden Teilstrukturen
um die rotierbare Bindung 218.Hence the vector has 238 , which is defined below, a rigid position and orientation with respect to any rigid substructure 210 or 220 holding the rotatable bond 218 combines. This occurs because the position and orientation of the rotatable bond 218 with respect to each rigid substructure does not change despite the rotation in the global coordinate frame 235 each of the two substructures around the rotatable bond 218 ,
Im
folgenden kann der Ausdruck starre Teilstruktur (210, 220)
austauschbar mit dem Ausdruck starre Gruppe (210, 220)
benutzt werden.In the following, the term rigid substructure ( 210 . 220 ) interchangeable with the term rigid group ( 210 . 220 ) to be used.
Wie
unten erörtert
wird, muß der
Vektor 238, der wie bereits erwähnt, eine feste Position und
Orientierung hinsichtlich jeder der beiden starren Teilstrukturen 210 oder 220 hat,
nicht in Form der rotierbaren Bindung 218 definiert werden,
die aus der starren Struktur 210, 220 herrührt. In
der Tat kann für
eine gegebene starre Teilstruktur der Vektor 238 irgendein
Vektor sein, der als starr plaziert im Hinblick auf die starre Teilstruktur
definiert werden kann.As will be discussed below, the vector must 238 as already mentioned, a fixed position and orientation with respect to each of the two rigid substructures 210 or 220 has, not in the form of the rotatable bond 218 be defined from the rigid structure 210 . 220 arises. In fact, for a given rigid substructure, the vector 238 may be any vector that can be defined as rigidly placed with respect to the rigid substructure.
Für den Augenblick
wird der Vektor 238 mit Hilfe der rotierbarn Bindung 218 definiert:
zum Beispiel fallen die Größe und Richtung
des Vektors 238 mit denen der Bindung 218 zusammen.
Die Vereinbarung über die
Richtung wird als von der niedriger (höher) nummerierten Teilstruktur
(210, 220) zu der höher (niedriger) nummerierten
Teilstruktur (210, 220) gerichtet angesehen übereinstimmend
für alle
einer oder mehrerer analysierter Molekülstrukturen 200. Eine
alternative Vereinbarung über
die Richtung basiert auf der Kennzeichnung der Atome (Plätze) an
den Endpunkten einer rotierbaren Bindung: die Richtung wird als
von dem niedriger (höher)
nummerierten Atom (Platz) zu dem höher (niedriger) nummerierten
Atom (Platz) gerichtet angesehen übereinstimmend für alle einer
oder mehrerer analysierter Molekülstrukturen 200.For the moment the vector becomes 238 with the help of the rotatable binding 218 defined: for example, the size and direction of the vector fall 238 with those of the bond 218 together. The agreement about the direction is considered to be from the lower (higher) numbered substructure ( 210 . 220 ) to the higher (lower) numbered substructure ( 210 . 220 ) aligned for all one or more analyzed molecular structures 200 , An alternative directional convention is based on the labeling of the atoms (squares) at the endpoints of a rotatable bond: the direction is considered to be from the lower (higher) numbered atom (square) to the higher (lower) numbered atom (square) consistent for all one or more analyzed molecular structures 200 ,
Eine
gegebene Molekülstruktur 200 kann
mehr als eine rotierbare Bindung 218 enthalten, und kann daher
irgendeine einer möglicherweise
unbegrenzten Anzahl von Konformationen (200, 250)
mittels Rotationen rund um diese Bindungen 218 annehmen.
Auf die Molekülstrukturen 200 mit
einer oder mehreren rotierbaren Bindungen 218 wird Bezug
genommen als auf "konformationselastische" Molekülstrukturen
oder "konformationselastische" Moleküle.A given molecular structure 200 can be more than a rotatable bond 218 can therefore contain any of a possibly unlimited number of conformations ( 200 . 250 ) by means of rotations around these bonds 218 accept. On the molecular structures 200 with one or more rotatable bonds 218 is referred to as "conformationally elastic" molecular structures or "conformationally elastic" molecules.
Beachte,
daß die
Molekülstruktur 250 eine
andere Konformation der Molekülstruktur 200 (und
umgekehrt) ist, weil es die gleiche Molekülstruktur ist, deren starre
Teilstrukturen (210, 220) um die rotierbare Bindung 218 im
Hinblick aufeinander gedreht 215 sind.Note that the molecular structure 250 another conformation of the molecular structure 200 (and vice versa) is because it is the same molecular structure whose rigid substructures ( 210 . 220 ) around the rotatable bond 218 rotated with respect to each other 215 are.
Alternativ
kann eine gegebene Molekülstruktur 200 keine
rotierbarben Bindungen 218 enthalten, und auf sie wird
dann Bezug genommen als auf eine "starre" Molekülstruktur oder ein "starres" Molekül.Alternatively, a given molecular structure 200 no rotatable bonds 218 and they are referred to as a "rigid" molecular structure or a "rigid" molecule.
Zusätzlich zu
der Konformationselastizität
einer Molekülstruktur
(200, 250) durch Rotationen um seine rotierbaren
Bindungen 218 kann die ganze Molekülstruktur (200, 250)
auch mit drei Freiheitsgraden rotieren 290 und eine Translationsbewegung 295 mit
drei Freiheitsgraden in dem globalen Koordinatenrahmen 235 ausführen.In addition to the conformational elasticity of a molecular structure ( 200 . 250 ) by rotations about its rotatable bonds 218 can the whole molecular structure ( 200 . 250 ) also rotate with three degrees of freedom 290 and a translational movement 295 with three degrees of freedom in the global coordinate frame 235 To run.
Zusätzlich zu
dem globalen Koordinatenrahmen 235 kann man auch "lokale" Koordinatenrahmen 245 bilden
durch geeignetes Auswählen
einer kleinen Menge von Atomplätzen
(z.B. I, K, H) in der Molekülstruktur (200, 250).
Zum Beispiel können,
wenn die drei Atomplätze
I, K, H (,welche als nichtkollinear gewählt wurden,) in der Molekülstruktur
(200, 250) gegeben sind, die Vektoren i = I → H und j
= I → K
gebildet werden. Da die drei Punkte als nichtkollinear angenommen
wurden, ist das Vektorprodukt k = i × j der beiden Vektoren i und
j gut definiert und senkrecht zu der Ebene, die durch die Vektoren
i und j definiert wird. Die Einheitsvektoren u1, u2 und u3 längs der
Richtungen, die durch die drei Vektoren i bzw. j und k definiert
werden, definieren einen schiefwinkligen, lokalen Koordinatenrahmen 245.
Dieser Koordinatenrahmen 245 wird 'schiefwinklig' genannt, weil in dem allgemeinen Fall
die Einheitsvektoren i und j nicht orthogonal zueinander sind. Jedoch
ist es möglich,
daß der
gebildete schiefwinklige Koordinatenrahmen 245 aus Einheitsvektoren
u1 und u2 besteht, die orthogonal sind.In addition to the global coordinate frame 235 you can also use "local" coordinate frames 245 form by suitably selecting a small amount of atoms (eg I, K, H) in the molecular structure ( 200 . 250 ). For example, if the three atomic sites I, K, H (which were chosen to be non-collinear) in the molecular structure ( 200 . 250 ), the vectors i = I → H and j = I → K are formed. Since the three points were assumed to be non-collinear, the vector product k = i x j of the two vectors i and j is well defined and perpendicular to the plane defined by the vectors i and j. The unit vectors u1, u2, and u3 along the directions defined by the three vectors i, j, and k, respectively, define a skewed, local coordinate frame 245 , This coordinate frame 245 is called 'skewed' because in the general case the unit vectors i and j are not orthogonal to each other. However, it is possible that the formed skewed coordinate frame 245 consists of unit vectors u1 and u2 which are orthogonal.
Beachte,
daß wie
oben beschrieben, ein lokaler, schiefwinkliger Koordinatenrahmen 245 durch
Auswählen
eines (oder beider) der Atomplätze,
die die rotierbare Bindung 218 definieren, D oder G (oder
D und G) und zwei (oder einen) der verbleibenden Atomplätze der
gegebenen Teilstruktur (210, 220) gebildet werden kann.
Zum Beispiel: ein lokaler, schiefwinkliger Koordinatenrahmen 245 für die Teilstruktur 210 kann
durch Benutzen eines der Atomplätze
H, I, J, K, L, M, N, O, P und sowohl D als auch G gebildet werden. Äquivalent kann
ein lokaler, schiefwinkliger Koordinatenrahmen 245 für die Teilstruktur 220 durch
Benutzen zweier der Atomplätze
H, I, J, K, L, M, N, O, P und exakt einem von D, G definiert werden.
In ähnlicher
Weise kann ein oder können
mehrere schiefwinklige Koordinatenrahmen 245 für die Teilstruktur 210 ausgewählt werden.Note that as described above, a local, skewed coordinate frame 245 by selecting one (or both) of the atomic sites containing the rotatable bond 218 define D or G (or D and G) and two (or one) of the remaining atomic sites of the given substructure ( 210 . 220 ) can be formed. For example: a local, skewed coordinate frame 245 for the substructure 210 can be formed by using one of the atomic sites H, I, J, K, L, M, N, O, P and both D and G. Equivalent can be a local, skewed coordinate frame 245 for the substructure 220 by using two of the Atomic sites H, I, J, K, L, M, N, O, P and exactly one of D, G are defined. Similarly, one or more oblique coordinate frames may be used 245 for the substructure 210 to be selected.
Der
globale Koordinatenrahmen 235 ist von den schiefwinkligen,
lokalen Koordinatenrahmen, die man bilden kann, verschieden, da
die Position und Orientierung des schiefwinkligen, lokalen Koordinatenrahmens 245 in
dem globalen Koordinatenrahmen 235 variieren kann, wenn
das betreffende Molekül 200 starre
Transformationen (Rotationen 290 und Translationen 295)
erfährt.
Die gleiche Feststellung gilt, wenn eine starre Gruppe (210, 220)
in der Molekülstruktur
(200, 250) mit Bezug auf eine andere starre Gruppe
(210, 220) um die rotierbare Bindung 218,
die die beiden starren Gruppen 210 und 220 verbindet,
rotiert 215.The global coordinate frame 235 is different from the skewed, local coordinate frames that can be formed, given the position and orientation of the skewed, local coordinate frame 245 in the global coordinate frame 235 can vary if the molecule in question 200 rigid transformations (rotations 290 and translations 295 ) learns. The same finding applies if a rigid group ( 210 . 220 ) in the molecular structure ( 200 . 250 ) with respect to another rigid group ( 210 . 220 ) around the rotatable bond 218 that the two rigid groups 210 and 220 connects, rotates 215 ,
Nachdem
ein bestimmter schiefwinkliger, lokaler Koordinatenrahmen 245 einmal
durch Benutzen der Plätze
einer starren Teilstruktur 220 gebildet wurde, kann der
Vektor 238, der mit der starren Teilstruktur verbunden
ist, in diesem Rahmen dargestellt werden. Diese Darstellung kann
entweder explizit oder implizit sein.After a certain oblique, local coordinate frame 245 once by using the places of a rigid substructure 220 The vector can be formed 238 , which is connected to the rigid substructure, are shown in this frame. This representation can be either explicit or implicit.
Bei
der expliziten Darstellung hat der Verktor 238 eine feste
Position und Orientierung in dem gewählten schiefwinkligen, lokalen
Koordinatenrahmen 245. Diese Position und Orientierung
kann zum Beispiel in Form eines Translationsvektors T, der den Mittelpunkt
des schiefwinkligen, lokalen Koordinatenrahmens 245 mit
irgendeinem festen Punkt SP längs
der Achse (Richtung) 217 des Vektors 238 (z.B.
einen der Endpunkte D, G des Vektors 238) verbindet, und
einer Rotationsmatrix R beschrieben werden. Der Translationsvektor
T gibt die Position des Punktes SP in dem schiefwinkligen, lokalen
Koordinatenrahmen 245 an, wogegen die Rotationsmatrix R
die Orientierung des Vektors 238 in dem gleichen schiefwinkligen,
lokalen Koordinatenrahmen 245 angibt. Beachte, daß die Rotationsmatrix äquivalent
beschrieben werden kann durch Auflisten der Längen der Projektionen des Vektors 238 auf
die Achsen i, j und k des schiefwinkligen, lokalen Koordinatenrahmens 245.
Alternativ kann die Rotationsmatrix durch Auflisten der Winkel beschrieben
werden, die der Verktor 238 mit jeder der Achsen i, j und
k des schiefwinkligen, lokalen Koordinatenrahmens 245 bildet.
Außerdem
können andere
Informationen, z.B. die Identität
der rotierbaren Bindung 218 – in dem Fall, daß der Vektor 238 in
Form solch einer rotierbaren Bindung definiert ist, oder die Größe des Vektors 238 in
der Darstellung eingeschlossen sein; diese zusätzlichen Informationen können für Prüfzwecke
benutzt werden. Bei dieser Diskussion ist angenommen worden, daß allen
Bindungen der betrachteten Molekülstruktur
eindeutige Kennzeichnungen gegeben wurden.In explicit representation, the verifier has 238 a fixed position and orientation in the selected skewed, local coordinate frame 245 , This position and orientation may take the form, for example, of a translation vector T, which is the center of the skewed, local coordinate frame 245 with some fixed point SP along the axis (direction) 217 of the vector 238 (eg one of the endpoints D, G of the vector 238 ), and a rotation matrix R are described. The translation vector T gives the position of the point SP in the oblique, local coordinate frame 245 whereas the rotation matrix R indicates the orientation of the vector 238 in the same oblique, local coordinate frame 245 indicates. Note that the rotation matrix can be equivalently described by listing the lengths of the projections of the vector 238 on the axes i, j and k of the skewed, local coordinate frame 245 , Alternatively, the rotation matrix can be described by listing the angles that the vector 238 with each of the axes i, j and k of the skewed, local coordinate frame 245 forms. In addition, other information, such as the identity of the rotatable bond 218 - in the case that the vector 238 is defined in the form of such a rotatable bond, or the size of the vector 238 to be included in the illustration; this additional information can be used for testing purposes. In this discussion it has been assumed that all labels of the considered molecular structure have been given unique labels.
Die
Größe, die
Position und Orientierung des Vektors 238 kann kompakt
in Matrixform dargestellt weren durch eine leichte Modifikation
der homogenen 4 × 4-Transformationsmatrix,
die auf dem Gebiet der Computergraphik sehr verbreitet ist. Insbesondere
kann die modifizierte Transformationsmatrix, wie das folgende Diagramm
zeigt, durch Benutzen der oben erwähnten 3 × 3-Rotationsmatrix, des 3 × 1-Translationsvektors
T und der Längen
der drei Projektionen des Vektors 238 auf die Achsen i,
j und k des schiefwinkligen, lokalen Koordinatenrahmens 245 aufgebaut
werden: The size, position and orientation of the vector 238 can be represented compactly in matrix form by a slight modification of the homogeneous 4 × 4 transformation matrix, which is very common in the field of computer graphics. In particular, as shown in the following diagram, the modified transformation matrix can be obtained by using the above-mentioned 3 × 3 rotation matrix, the 3 × 1 translation vector T, and the lengths of the three projections of the vector 238 on the axes i, j and k of the skewed, local coordinate frame 245 being constructed:
In
der impliziten Darstellung kann die Position und Orientierung des
Vektors 238 in dem ausgewählten schiefwinkligen, lokalen
Koordinatenrahmen 245 durch Auflisten der identifizierenden
Kennzeichnungen der Atomplätze
D/G dargestellt werden, die helfen, den Vektor 238 zu definieren;
die Kennzeichnungen müssen
in der Reihenfolge aufgelistet werden, die die Richtung des zugehörigen Vektors 238 definiert.
In dem impliziten Fall wird die Position und Orientierung des Vektors 238 in
dem schiefwinkligen, lokalen Koordinatenrahmen 245 aus
den Kennzeichnungen der definierenden Atomplätze D, G und der Beschreibung
der Molekülstruktur 200 erzeugt,
wann immer solche Positions- und Richtungsinformationen benötigt werden.
Alle anderen Informationen können,
wie das im Fall der expliziten Darstellung erläutert wurde, durch eine On-Line-Berechnung erhalten
werden. Daher kann die implizite Darstellung die Speicheranforderungen
in dem System 100 verringern.In the implicit representation, the position and orientation of the vector 238 in the selected skewed, local coordinate frame 245 are shown by listing the identifying marks of atomic sites D / G that help the vector 238 define; the labels must be listed in the order that indicates the direction of the associated vector 238 Are defined. In the implicit case, the position and orientation of the vector 238 in the skewed, local coordinate frame 245 from the labels of the defining atomic sites D, G and the description of the molecular structure 200 generated whenever such position and direction information is needed. All other information can be obtained by an on-line calculation, as explained in the case of the explicit presentation. Therefore, the implicit representation may be the memory requirements in the system 100 reduce.
Eine
bestimmte, entweder implizite oder explizite Darstellung des Vektors 238 in
einem ausgewählten schiefwinkligen,
lokalen Koordinatenrahmen 245 genügt, um die Darstellung des
Vektors 238 in dem globalen Koordinatenrahmen 235 zu
bestimmen.A specific, either implicit or explicit representation of the vector 238 in a selected oblique, local coordinate frame 245 is enough for the representation of the vector 238 in the global coordinate frame 235 to determine.
Wie
das oben erwähnt
wurde, genügt
das Definieren der Koordinaten (x, y, z) von drei oder mehr Atomen
(Plätzen)
(z.B. G-P) einer bestimmten starren Teilstruktur 220 in
dem globalen Koordinatenrahmen 235, einen schiefwinkligen,
lokalen Koordinatenrahmen 245 zu definieren als auch eine
globale Position und eine globale Richtung für die starre Teilstruktur 220 in
dem globalen Koordinatenrahmen 235. Folglich genügt das Definieren
der Koordinaten (x, y, z) von drei oder mehr Atomen (Plätzen) (z.B.
G-P) einer bestimmten starren Teilstruktur 220 in dem globalen
Koordinatenrahmen 235, um die Position und Orientierung
des zugehörigen Vektors 238 in
dem globalen Koordinatenrahmen 235 zu definieren. Dies
wird erreicht, indem man Gebrauch macht von entweder der impliziten
oder der expliziten Darstellung des Vektors 238 in dem
schiefwinkligen, lokalen Koordinatenrahmen 245 und eine Änderung
von Koordinatenrahmen durch bekannte Vektorverfahren auf den globalen
Koordinatenrahmen 235 anwendet. In ähnlicher Weise genügt das Definieren
der Koordinaten (x, y, z) von drei oder mehr Atomen (Plätzen) (z.B.
A-F) einer bestimmten starren Teilstruktur 210 in dem globalen
Koordinatenrahmen 235, um die Position und Orientierung
des zugehörigen
Vektors 238 in dem globalen Koordinatenrahmen 235 zu
definieren. Es ist sehr wichtig, zu beachten, daß, wenn der Vektor 238 in Form
der rotierbaren Bindung 218 definiert ist, die zwei starre
Teilstrukturen 210 und 220 verbindet, die Position
und Orientierung des Vektors 238 in dem globalen Koordinatenrahmen,
wie er durch einen schiefwinkligen Koordinatenrahmen 245 einer
bestimmten Teilstruktur 210 bestimmt ist, identisch mit
der Position und Orientierung des Vektors 238 in dem globalen
Koordinatenrahmen 235 ist, wie er durch einen schiefwinkligen,
lokalen Koordinatenrahmen 245 einer anderen bestimmten
Teilstruktur 220 bestimmt ist; beachte auch, daß in diesem
besonderen Fall die Position und Orientierung des Vektors 238 in
dem globalen Koordinatenrahmen 235 die Position und Orientierung
der starren Teilstrukturen an seinen beiden Enden erzwingt, aber
sie nicht vollständig
spezifiziert: in der Tat hat jede der starren Teilstrukturen (210, 220)
einen Freiheitsgrad, nämlich
die Fähigkeit,
um die Achse des Vektors 238 hinsichtlich der anderen Teilstruktur
(220, 210) zu rotieren.As mentioned above, defining the coordinates (x, y, z) of three or more atoms (squares) (eg, GP) of a particular rigid substructure is sufficient 220 in the global coordinate frame 235 , a skewed, local coordinate frame 245 as well as a global position and a global direction for the rigid substructure 220 in the global coordinate frame 235 , Thus, defining the coordinates (x, y, z) of three or more atoms (squares) (eg, GP) of a particular rigid substructure is sufficient 220 in the global coordinate frame 235 to the position and orientation of the associated vector 238 in the global coordinate frame 235 define. This is achieved by making use of either the implicit or the explicit representation of the vector 238 in the skewed, local coordinate frame 245 and a change of coordinate frames to the global coordinate frame by known vector methods 235 applies. Similarly, defining the coordinates (x, y, z) of three or more atoms (squares) (eg, AF) of a particular rigid substructure is sufficient 210 in the global coordinate frame 235 to the position and orientation of the associated vector 238 in the global coordinate frame 235 define. It is very important to note that if the vector 238 in the form of the rotatable bond 218 is defined, the two rigid substructures 210 and 220 connects the position and orientation of the vector 238 in the global coordinate frame, as indicated by a skewed coordinate frame 245 a particular substructure 210 is determined, identical to the position and orientation of the vector 238 in the global coordinate frame 235 is like passing through a skewed, local coordinate frame 245 another particular substructure 220 is determined; Also note that in this particular case, the position and orientation of the vector 238 in the global coordinate frame 235 enforces the position and orientation of the rigid substructures at its two ends, but does not fully specify them: in fact, each of the rigid substructures ( 210 . 220 ) One degree of freedom, namely the ability to move around the axis of the vector 238 with regard to the other substructure ( 220 . 210 ) to rotate.
2B ist
ein Diagramm, das eine zweite Molekülform 250 der Molekülstruktur 200,
den globalen Koordinatenrahmen 235, den schiefwinkligen,
lokalen Koordinatenrahmen 245 und den invarianten Vektor 238 der 2A zeigt. 2 B is a diagram that has a second molecular shape 250 the molecular structure 200 , the global coordinate frame 235 , the oblique, local coordinate frame 245 and the invariant vector 238 of the 2A shows.
Der
Ausdruck Konformation wird benutzt, um auf irgendeine Menge möglicher
Konfigurationen in dem dreidimensionalen Raum Bezug zu nehmen, die
eine bestimmte Molekülstruktur
(200, 250) aufgrund einer innewohnenden Strukturelastizität annehmen
kann; diese Elastizität
ist typischerweise die Folge von rotierbaren und/oder elastischen
Bindungen, die in dem Molekül
vorhanden sind. Die Analyse hier konzentriert sich nur auf rotierbare
Bindungen und nimmt an, daß die
gezeigte Strukturelastizität
das Ergebnis von Rotationen der starren Teilstrukturen um solche
rotierbaren Bindungen ist. Typischerweise gibt es eine unendliche
Zahl solcher Konfigurationen, von denen einige energetisch günstiger
sind als andere. Ebenso können
sterische Betrachtungen die Menge der möglichen Konformationen weiter
begrenzen.The term conformation is used to refer to any set of possible configurations in three-dimensional space having a particular molecular structure ( 200 . 250 ) due to inherent structural elasticity; this elasticity is typically the result of rotatable and / or elastic bonds present in the molecule. The analysis here focuses only on rotatable bonds and assumes that the structural elasticity shown is the result of rotations of the rigid substructures around such rotatable bonds. Typically, there are an infinite number of such configurations, some of which are more energy efficient than others. Likewise, steric considerations can further limit the set of possible conformations.
Wie
oben beschrieben wurde, bleibt in jeder Konformation 250 der
Molekülstruktur 200 die
Position und Orientierung der rotierbaren Bindung 218 in
Bezug auf einen schiefwinkligen, lokalen Koordinatenrahmen 245 einer
Teilstruktur (210, 220) die gleiche (invariant).
In ähnlicher
Weise bleibt die Position und Orientierung der rotierbaren Bindung 218 in
Bezug auf einen schiefwinkligen, lokalen Koordinatenrahmen 245 einer
Teilstruktur (210, 220) die gleiche (invariant),
wenn die gesamte Molekülstruktur 200 rotiert
und in dem globalen Koordinatenrahmen 235 eine Translation
erfährt.
Dies beruht auf der Tatsache, daß der schiefwinklige, lokale Koordinatenrahmen 245 und
die rotierbare Bindung 218 sich stets in einer festen Position
und Orientierung in Bezug aufeinander befinden, trotz irgendeiner
Rotation 215 der starren Teilstruktur 220 um die
rotierbare Bindung 218 und jeder Translationsbewegung 295 und/oder
Rotation 290 der gesamten Molekülstruktur 200 oder irgendeiner
ihrer Konformationen 250.As described above, it remains in any conformation 250 the molecular structure 200 the position and orientation of the rotatable bond 218 with respect to a skewed, local coordinate frame 245 a substructure ( 210 . 220 ) the same (invariant). Similarly, the position and orientation of the rotatable bond remains 218 with respect to a skewed, local coordinate frame 245 a substructure ( 210 . 220 ) the same (invariant) when the entire molecular structure 200 rotates and in the global coordinate frame 235 undergoes a translation. This is due to the fact that the skewed, local coordinate frame 245 and the rotatable bond 218 always in a fixed position and orientation with respect to each other, despite any rotation 215 the rigid substructure 220 around the rotatable bond 218 and every translation movement 295 and / or rotation 290 the entire molecular structure 200 or any of their conformations 250 ,
Um
eine Menge beschreibender Indizes für die Molekülstruktur (200, 250)
zu erstellen, müssen
Tupel von Atomplätzen
(und/oder 'Attrappen'plätzen, unten
beschrieben) ausgewählt
werden. Diese Tupel können benutzt
werden, um schiefwinklige, lokale Koordinatenrahmen 245 zu
bilden. Die Tupel haben Tupelattribute, die unter anderem geometrische
Merkmale, die Reihenfolge und Vektorbeziehungen einschließen können, die durch
die Atomplätze
definiert sind, die das Tupel umfassen (siehe die Beschreibung von 3).To get a lot of descriptive indexes for the molecular structure ( 200 . 250 ), tuples of atomic sites (and / or 'dummy' sites, described below) must be selected. These tuples can be used to skew, local coordinate frames 245 to build. The tuples have tuple attributes that can include, among other things, geometric features, the order, and vector relationships defined by the atomic sites that comprise the tuple (see the description of FIG 3 ).
Zusätzlich kann
eine Menge oder können
mehrere Mengen von Atomplätzen
(und/oder 'Attrappen'plätzen), zum
Beispiel der Ring K-P, als diese 'Eigenschaften' besitzend in der Molekülstruktur
(200, 250) identifiziert werden. Diese Eigenschaften
sind spezifisch für
die Menge von Atomplätzen
K-P und können
einschließen:
chemische, (z.B. Valenz, Atomgewicht, Atomart usw.) und/oder physikalische
(z.B. elektrostatische, hydropathische usw.) Eigenschaften der Menge
von Atomplätzen,
andere Attribute usw. Im folgenden wird auf diese Mengen von Atomplätzen K-P
als auf 'Platzmengen' Bezug genommen.In addition, a set or multiple sets of atoms (and / or 'dummy' sites), for example the ring KP, may be considered as having these 'properties' in the molecular structure ( 200 . 250 ) be identified. These properties are specific to the set of atomic sites KP and may include: chemical (eg, valence, atomic weight, atomic type, etc.) and / or physical (eg, electrostatic, hydropathic, etc.) properties of the set of atomic sites, other attributes, etc. In the following these quantities of atomic sites KP are referred to as 'amounts of space'.
Wenn
daher einer oder mehrere der Atomplätze, die an einem Tupel teilhaben,
auch ein Glied einer oder mehrerer der Platzmengen ist, können die
Eigenschaften der Platzmengen, von denen der Atomplatz in dem ausgewählten Tupel
ein Glied ist, auch dem Tupel zugeordnet werden. Daher können diese
Eigenschaften benutzt werden, um den Index zu erhöhen, der
von dem Tupel abgeleitet wird, und um ihn beschreibender zu machen.If
therefore one or more of the atomic sites that participate in a tuple,
is also a member of one or more of the amounts of space, the
Properties of the amounts of space, of which the atomic place in the selected tuple
a limb is also assigned to the tuple. Therefore, these can
Properties used to increase the index that
derived from the tuple, and to make it more descriptive.
Die
Position und Orientierung des Vektors 238 wird in jedem
der schiefwinkligen, lokalen Koordinatenrahmen 245 dargestellt.
Die Darstellung des Vektors 238, der in jedem der schiefwinkligen,
lokalen Koordinatenrahmen 245 invariant ist, wird über eine Datenstruktur
(siehe die Beschreibungen der 4 und 5 unten) dem Index zugeordnet, der von
dem Tupel abgeleitet wird. 3 ist eine
Folge von Zeichnungen, die zeigen, wie die Platzmengen K-O definiert
sind (3A), Attrappenplätze Du definiert
sind und dann benutzt werden (3B) und
wie Tupel (typisch 335, 345, 355) definiert
werden durch Auswählen
einer Menge eines oder mehrerer der Atomplätze und/oder Attrappenplätze Du aus
der Molekülstruktur 200.
Jedes Tupel (335, 345, 355) wird benutzt,
um einen speziellen schiefwinkligen, lokalen Koordinatenrahmen 245 zu
definieren.The position and orientation of the vector 238 is in each of the skewed, local coordinate frames 245 shown. The representation of the vector 238 which is in each of the skewed, local coordinate frames 245 is invariant, is a data structure (see the descriptions of the 4 and 5 below) associated with the index derived from the tuple. 3 is a sequence of drawings that show how the sets KO are defined ( 3A ), Dummy places you are defined and then used ( 3B ) and like tuples (typical 335 . 345 . 355 ) by selecting a set of one or more of the atomic sites and / or dummy sites you define from the molecular structure 200 , Every tuple ( 335 . 345 . 355 ) is used to create a special skewed, local coordinate frame 245 define.
Eine
Platzmenge ist eine Menge, die einen oder mehrere Atomplätze und/oder
einen oder mehrere der Attrappenplätze der Molekülstruktur 200 umfaßt. Ein
Beispiel einer Platzmenge könnte
eine gemeinsam auftretende Struktur (z.B. ein Phenylring oder der
Ring K-O) in einer Datenbank D mit Molekülstrukturen 200 sein. Es
ist bisweilen nützlich,
solch eine Struktur durch einen einzigen Attrappenplatz Du zu ersetzen.
Ein alternativer Weg des Definierens einer Platzmenge besteht darin,
Atome auszuwählen,
die an einer gemeinsamen Menge von Eigenschaften und/oder Attributen
teilhaben. Zum Beispiel könnte
man eine Platzmenge durch Sammeln all der Atomplätze bilden, die an einem aromatischen
Ring teilhaben. Eine andere Platzmenge könnte durch Sammeln all derjenigen
Plätze
gebildet werden, die als Hydrogen-Donatoren (bzw. Akzeptoren) wirken.
Diese Platzmengen können
auch durch eine Attrappeneinheit ersetzt werden, in welchem Fall
die Attrappeneinheit alle die Eigenschaften der Platzmenge erbt,
die ersetzt wird. Zum Beispiel ist in 3A die
Platzmenge K-O an
den Atomplatz P gebunden. Wenn die Platzmenge K-O durch die Attrappeneinheit
Du (3B) ersetzt wird, ist es die Attrappeneinheit,
die jetzt an den Atomplatz P anstelle der Platzmenge K-O gebunden wird.
Zusätzlich
wird, wenn die Platzmenge K-O Eigenschaften (z.B. Hydropathie, ein
bestimmtes elektrostatisches Verhalten usw.) aufweist, die Attrappeneinheit
Du diese Eigenschaften auch erben.An amount of space is an amount that contains one or more atomic sites and / or one or more of the dummy sites of the molecular structure 200 includes. An example of an amount of space could be a co-occurring structure (eg, a phenyl ring or the ring KO) in a database D with molecular structures 200 be. It is sometimes useful to replace such a structure with a single dummy space. An alternative way of defining an amount of space is to select atoms that share a common set of properties and / or attributes. For example, one might build up an amount of space by collecting all the atomic sites that participate in an aromatic ring. Another amount of space could be formed by collecting all those sites that act as hydrogen donors (or acceptors). These sets of spaces can also be replaced by a dummy unit, in which case the dummy unit will inherit all the features of the amount of space that is being replaced. For example, in 3A the amount of space KO bound to the atomic place P If the amount of space KO through the dummy unit Du ( 3B ), it is the dummy unit that is now tied to the atomic place P instead of the space amount KO. In addition, if the amount of space KO has properties (eg, hydropathy, a certain electrostatic behavior, etc.), the dummy unit you will inherit these properties as well.
Ein
Tupel ist eine Menge eines oder mehrerer Atomplätze und/oder eines oder mehrerer
Attrappenplätze.
Tupel, die nur einen Atom- oder
Attrappenplatz) umfassen, sind beim Beschreiben von Translationen 295 einer
starren Struktur nützlich.
In solchen Fällen
kann das Bestimmen von Informationen über die Rotation 290 eine
zusätzliche
Rechenlast aufbürden.
Darüberhinaus
können
die Informationen für
das Erstellen von Indizes auf die Eigenschaften des einzelnen Atom-
(oder Attrappen)platzes in dem Tupel begrenzt sein. In ähnlicher
Weise sind Tupel, die nur zwei Atom- (oder Attrappen)plätze umfassen,
beim Beschreiben von Translationen 295 einer starren Struktur
nützlich,
und sie erzwingen auch die Rotation 290 in zwei Freiheitsgraden, spezifizieren
aber die Rotation nicht völlig:
das Bestimmen der Informationen über
die Rotation 290 lädt
eine zusätzliche
Rechenbürde
auf. In diesem Fall können
die Informationen für
das Erstellen der Indizes auf die Eigenschaften der beiden Atom- oder Attrappen)plätze in dem
Tupel begrenzt werden.A tuple is a set of one or more atomic sites and / or one or more dummy sites. Tuples that span only one atomic or dummy space) are in describing translations 295 a rigid structure useful. In such cases, determining information about the rotation 290 put an additional burden on the calculation. In addition, the information for creating indexes may be limited to the properties of each atomic (or dummy) space in the tuple. Similarly, tuples involving only two atomic (or dummy) sites are in describing translations 295 a rigid structure useful, and they also force the rotation 290 in two degrees of freedom, but do not completely specify the rotation: determining the information about the rotation 290 charges an additional work burden. In this case, the information for creating the indices may be limited to the properties of the two atomic or dummy locations in the tuple.
Bei
dem bevorzugten Ausführungsbeispiel
sind Tupel definiert, die drei oder mehr Atom- (und/oder Attrappen)plätze benutzen.
Bei einem bevorzugteren Ausführungsbeispiel
sind zumindest drei Atom- (und/oder Attrappen)plätze des Tupels nichtkollinear.
Die Tupel werden benutzt, um einen schiefwinkligen, lokalen Koordinatenrahmen 245 (wie
oben beschrieben) und einen Index zu definieren. Wenn das Tupel
vier Atom- (und/oder Attrappen)plätze umfaßt, von denen drei beliebige
nichtkollinear sind, dann kann das (oben beschriebene) Kreuzprodukt
i × j
durch den Vektor ersetzt werden, der den Ursprung des schiefwinkligen,
lokalen Koordinatenrahmens 245 mit dem vierten Platz verbindet.In the preferred embodiment, tuples are defined that use three or more atomic (and / or dummy) locations. In a more preferred embodiment, at least three atomic (and / or dummy) sites of the tuple are non-collinear. The tuples are used to create a skewed, local coordinate frame 245 (as described above) and define an index. If the tuple comprises four atom (and / or dummy) locations, three of which are any non-collinear, then the cross product ixj (described above) may be replaced by the vector representing the origin of the skewed, local coordinate frame 245 connects to the fourth place.
Beachte,
daß vier
oder mehr Atom- (und/oder Attrappen)plätze benutzt werden können. In
diesem Fall können
beliebige drei nichtkollineare Atom- (und/oder Attrappen)plätze ausgebildet
werden, um den schiefwinkligen, lokalen Koordinatenrahmen 245 zu bestimmen,
wogegen die restlichen Atom- (und/oder Attrappen)plätze benutzt
werden können,
um die während
der Vergleichsstufe des Verfahrens erzeugten Hypothesen weiter zu
beschränken.
Siehe die Beschreibung der 6 unten.Note that four or more atomic (and / or dummy) locations can be used. In this case, any three non-collinear atomic (and / or dummy) locations may be formed around the skewed, local coordinate frame 245 whereas the remaining atomic (and / or dummy) sites can be used to further constrain the hypotheses generated during the comparison stage of the process. See the description of 6 below.
Beachte,
daß keine,
einige oder alle dieser Attribute und Eigenschaften benutzt werden
können,
um eine Zahl (Index) zu bilden, die die gebildeten Dreiecke, die
den Tupeln entsprechen, eindeutig beschreibt.Note
that no,
some or all of these attributes and properties are used
can,
to form a number (index) representing the formed triangles, the
match the tuples, clearly describes.
Der
Vektor 238 ist starr in dem schiefwinkligen, lokalen Koordinatenrahmen 245 plaziert
wie oben beschrieben. Der Vektor 238 wird dann (implizit
oder explizit wie oben beschrieben) in dem schiefwinkligen, lokalen
Koordinatenrahmen 245 des gebildeten Dreiecks dargestellt.The vector 238 is rigid in the skewed, local coordinate frame 245 placed as described above. The vector 238 is then (implicitly or explicitly as described above) in the oblique, lo scale coordinate frame 245 represented the formed triangle.
Tupel
werden während
der Durchführung
von zwei Prozessen gebildet, die in dieser Erfindung enthalten sind.
Ein Referenz-Speicherungsprozeß (siehe 5) und ein Vergleichsprozeß (siehe 6). In dem Referenz-Speicherungsprozeß werden
Tupel durch Auswählen
von Atom- (und/oder Attrappen)plätzen
aus der Molekülstruktur
(200, 250) gebildet. Während des Referenz-Speicherungsprozesses
werden die Tupel durch Auswählen
einer Menge von Atom- (und/oder Attrappen)plätzen gebildet, die als 'Referenztupel-Auswahlmenge' bezeichnet wird.
Die Referenztupel-Auswahlmenge
schließt
alle die Atomplätze
in einer starren Teilstruktur (210, 220) ein,
alle die Attrappenplätze,
die einer starren Teilstruktur (210, 220) zugeordnet
sind, und die Atom- (und/oder
Attrappen)plätze,
die Endpunkte irgendeiner rotierbaren Bindung 218 sind,
die mit der gegebenen starren Teilstruktur (210, 220)
verbunden, aber nicht in der Teilstruktur (210, 220)
eingeschlossen ist. Die Referenztupel-Auswahlmenge schließt diese Atom- (und/oder Attrappen)plätze ein,
weil Tupel, die einen oder mehrere dieser Plätze umfassen, trotz der Rotation 215 um
irgendeine rotierbare Bindung 218 invariant bleiben. Das
liegt, wie oben erklärt,
daran, daß die
Position und Orientierung der rotierbaren Bindung 218 im
Hinblick auf den schiefwinkligen, lokalen Koordinatenrahmen 245,
der das Tupel definiert, die gleiche bleibt (invariant), wenn die
starre Teilstruktur 220 hinsichtlich der starren Teilstruktur 210 rotiert.
Beachte weiter, daß die Position
und Orientierung der rotierbaren Bindung 218 in dem schiefwinkligen,
lokalen Koordinatenrahmen 245, den das Tupel definiert,
trotz einer beliebigen Rotation 290 und Translation 295 der
Molekülstruktur
(200, 250) invariant ist. Bei einem bevorzugten
Ausführungsbeispiel
können
die Tupel aus einer geeigneten Teilmenge der Referenztupel-Auswahlmenge,
die gerade definiert wurde, ausgewählt werden.Tuples are formed while performing two processes included in this invention. A reference storage process (see 5 ) and a comparison process (see 6 ). In the reference storage process, tuples are selected by selecting atomic (and / or dummy) sites from the molecular structure ( 200 . 250 ) educated. During the reference storage process, the tuples are formed by selecting a set of atomic (and / or dummy) locations, referred to as a 'reference tuple selection set'. The reference tuple selection set includes all the atomic places in a rigid substructure ( 210 . 220 ), all the dummy locations that are part of a rigid substructure ( 210 . 220 ), and the atomic (and / or dummy) sites, the endpoints of any rotatable bond 218 are with the given rigid substructure ( 210 . 220 ), but not in the substructure ( 210 . 220 ) is included. The reference tuple selection set includes these atomic (and / or dummy) locations because tuples involving one or more of these locations, despite the rotation 215 about any rotatable bond 218 remain invariant. This is because, as explained above, the position and orientation of the rotatable bond 218 with regard to the skewed, local coordinate frame 245 that defines the tuple, the same remains (invariant) when the rigid substructure 220 with regard to the rigid substructure 210 rotates. Note further that the position and orientation of the rotatable bond 218 in the skewed, local coordinate frame 245 the tuple defines, despite any rotation 290 and translation 295 the molecular structure ( 200 . 250 ) is invariant. In a preferred embodiment, the tuples may be selected from an appropriate subset of the reference tuple selection set that has just been defined.
Während des
Vergleichstestprozesses werden die Tupel durch Auswählen aus
einer Menge von Atom- (und/oder Attrappen)plätzen gebildet, die als 'Vergleichstupel-Auswahlmenge' bezeichnet wird.
Anders als die Referenztupel-Auswahlmenge könnte die Vergleichstupel-Auswahlmenge
alle die Atom- (und/oder Attrappen)plätze der gesamten Molekülstruktur
(200, 250) einschließen. Bei einem alternativen
Ausführungsbeispiel können Teilmengen
all dieser Plätze
benutzt werden, um die Vergleichstupel-Auswahlmenge zu bilden. Bei
einem bevorzugten Ausführungsbeispiel
schließen
die Atomplätze
sowohl bei der Referenztupel-Auswahl als auch bei der Vergleichstupel-Auswahl
nicht die Atom- (und/oder Attrappen)plätze ein, die zu weit voneinander entfernt
sind (z.B. mehr als 10 Angström
entfernt).During the comparison test process, the tuples are formed by selecting from a set of atomic (and / or dummy) locations, referred to as the 'comparative tuple selection set'. Unlike the reference tuple selection set, the comparison tuple selection set could include all the atomic (and / or dummy) sites of the entire molecular structure ( 200 . 250 ) lock in. In an alternative embodiment, subsets of all of these locations may be used to form the comparison tuple selection set. In a preferred embodiment, the atomic sites in both the reference tuple selection and the comparative tuple selection do not include the atomic (and / or dummy) sites that are too far apart (eg, more than 10 angstroms away).
Die
Erfindung erstellt eine Vielfalt von Tupeln sowohl in dem Prozeß zur Referenzspeicherung 500 als auch
zum Vergleichstest. Bei einem bevorzugten Ausführungsbeispiel werden so viele
Tupel als möglich
durch Benutzen der Referenztupel-Auswahlmenge (oder der Vergleichstupel-Auswahlmenge)
erstellt. Bei einem anderen bevorzugten Ausführungsbeispiel werden alle
möglichen
Tupel erstellt, die in diesen Tupel-Auswahlmengen enthalten sind.
Bei einem anderen bevorzugten Ausführungsbeispiel werden alle
möglichen
Tupel unter Ausschluß redundanter
Permutationen der Tupelmitglieder erstellt, die in diesen Tupel-Auswahlmengen enthalten
sind.The invention creates a variety of tuples in both the reference storage process 500 as well as for the comparison test. In a preferred embodiment, as many tuples as possible are created by using the reference tuple selection set (or the comparative tuple selection set). In another preferred embodiment, all possible tuples are included that are included in these tuple selection sets. In another preferred embodiment, all possible tuples are made excluding redundant permutations of the tuple members included in these tuple selection sets.
3C ist
eine Darstellung der Teilstruktur 220 mit einer damit verbundenen
rotierbaren Bindung 218 und der Ringstruktur K-O, die durch
den Attrappenplatz Du dargestellt ist. Ein Tupel 335 wird
gebildet durch Auswählen
von drei Atomplätzen
H, I, J aus der Referenztupel-Auswahlmenge, die die Menge von Atomplätzen D,
G, H, I, J, P und den Attrappenplatz Du einschließt. Das
Tupel 335 definiert ein Dreieck 336 mit Attributen,
die einschließen:
geometrische Merkmale, (z.B. die Länge der drei Seiten des Dreiecks 336,
die Winkel des Dreiecks 336, den Umfang des Dreiecks 336 usw.),
Reihenfolgeinformationen, (die durch Vereinbarung in der Reihenfolge,
in der die Plätze
ausgewählt
werden, enthalten sind), Vektorinformationen usw. Wenn zum Beispiel
die Atomplätze
in der Reihenfolge H, I, J ausgewählt werden, ist der Vektor
i (siehe Diskussion oben) definiert als i = H → I, und der Vektor j (siehe
Diskussion oben) ist definiert als j = H → J; diese Vereinbarung wird
durchgehend in dem beschriebenen Prozeß benutzt. Andere Vereinbarungen
sind möglich.
Wenn alternativ die Atomplätze
in der Reihenfolge I, H, J ausgewählt werden, ist der Vektor
i (siehe Diskussion oben) definiert als i = I → H und der Vektor j (siehe
Diskussion oben) ist definiert als j = I → J. In beiden Fällen ist
der Vektor k definiert als k = i × j, wie oben beschrieben,
und die Vektoren i, j, k definieren den schiefwinkligen, lokalen
Koordinatenrahmen 245, der dem Tupel 335 zugeordnet
ist. 3C is a representation of the substructure 220 with an associated rotatable bond 218 and the ring structure KO represented by the dummy place Du. A tuple 335 is formed by selecting three atomic sites H, I, J from the reference tuple selection set, which includes the set of atomic sites D, G, H, I, J, P and the dummy space Du. The tuple 335 defines a triangle 336 with attributes that include: geometric features, (eg the length of the three sides of the triangle 336 , the angles of the triangle 336 , the circumference of the triangle 336 etc.), order information (included by agreement in the order in which the locations are selected), vector information, etc. When, for example, the atomic locations are selected in the order H, I, J, the vector i (see FIG Discussion above) defined as i = H → I, and the vector j (see discussion above) is defined as j = H → J; this agreement is used throughout the process described. Other agreements are possible. Alternatively, if the atom sites are selected in the order I, H, J, the vector i (see discussion above) is defined as i = I → H and the vector j (see discussion above) is defined as j = I → J. In In both cases, the vector k is defined as k = i × j, as described above, and the vectors i, j, k define the skewed, local coordinate frame 245 that's the tuple 335 assigned.
Wenn
eine bestimmte Anzahl von z.B. 3 Atomplätzen aus der Referenztupel-Auswahlmenge
ausgewählt
wird, sind mehr als eine Tupelreihenfolge möglich. Mit anderen Worten können die
ausgewählten
Plätze, die
das Tupel bilden, permutiert werden, um andere Tupel zu erstellen.
Zum Beispiel können
die ausgewählten Atomplätze H, I,
J Tupel 335 wie folgt bilden: H-I-J, H-J-I, I-H-J, I-J-H,
J-I-H und J-H-I. Im allgemeinen ist die Anzahl der geordneten Tupel,
die durch Auswählen
von k Plätzen
aus einer Referenztupel-Auswahlmenge, die l Plätze enthält, erstellt werden kann, gegeben
durch l!/(l – k)!.When a certain number of, for example, 3 atomic sites are selected from the reference tuple selection set, more than one tuple order is possible. In other words, the selected sites that make up the tuple can be permuted to create other tuples. For example, the selected atomic sites H, I, J may be tuples 335 as follows: HIJ, HJI, IHJ, IJH, JIH and JHI. In general, the number of ordered tuples that can be created by selecting k places from a reference tuple selection set containing 1 places given by 1! / (1-k)!
Jedoch
definieren Tupel 335, die Permutationen voneinander sind,
die gleichen geometrischen Eigenschaften, z.B. die Längen der
Seiten des Dreiecks 336 usw. Daher sind in einigen bevorzugten
Ausführungsbeispielen
redundante Permutationen einer gegebenen Anzahl von Plätzen, die
ein Tupel bilden, nicht notwendig. Dies deshalb, weil alle Permutationen
eines bestimmten Tupels 335 die gleiche Menge von Atomplätzen umfassen
und daher die gleichen geometrischen Merkmale und Vektorinformationen
tragen.However, tuples define 335 which are permutations of each other, the same geometric properties, eg the lengths of the sides of the triangle 336 etc. Therefore, in some preferred embodiments, redundant permutations of a given number of sites forming a tuple are not necessary. This is because all permutations of a particular tuple 335 comprise the same set of atomic sites and therefore bear the same geometric features and vector information.
Reihenfolgeinformationen
können
auch gewonnen werden, wenn eine Reihenfolgevereinbarung auferlegt
wird: alle Permutationen eines bestimmten Tupels 335 können aus
einer einzigen normalisierten Form des Tupels 335 durch
Benutzen der Reihenfolgevereinbarung erzeugt werden. Daher genügt es, nur
reihenfolgeunabhängige
Kombinationen von Atomplätzen
der Molekülstruktur
(200, 250) zu betrachten; die Anzahl von möglichen
(reihenfolgeunabhängigen)
Kombinationen, die durch Auswählen
von k Plätzen
aus einer Referenztupel-Auswahlmenge erstellt werden können, die
l Plätze
enthält,
ist gegeben durch l!/(k!(l – k)!),
was um den Faktor k! kleiner ist als die Anzahl geordneter Tupel.
Daher werden die Speicheranforderungen um den gleichen Faktor verringert
bei einer minimalen Zunahme der Rechenkosten, die benötigt werden,
um die notwendigen Buchführungsvorgänge auszuführen.Order information can also be obtained when an ordering agreement is imposed: all permutations of a particular tuple 335 can be from a single normalized form of the tuple 335 be generated by using the order agreement. Therefore, it is sufficient to use only sequence-independent combinations of atomic sites of molecular structure ( 200 . 250 ) consider; the number of possible (order-independent) combinations that can be created by selecting k places from a reference tuple selection set containing 1 places is given by 1! / (k! (1-k)!), which is by the factor k! smaller than the number of ordered tuples. Therefore, the memory requirements are reduced by the same factor with a minimal increase in the computational costs needed to perform the necessary accounting operations.
Der
Prozeß des
Auswählens
eines einzelnen, repräsentativen,
reihenfolgeunabhängigen
Tupels (= eine Kombination) wird 'Normalisierung' genannt. Normalisierung schließt das Bestimmen
einer eindeutigen Reihenfolge ein, wenn eine Menge von Atomplätzen gegeben
ist; die auferlegte Reihenfolge ist unabhängig von der Reihenfolge, in
der die Atomplätze
gegeben sind. Dies geschieht durch Auferlegen einer Reihenfolgevereinbarung,
um ein einzelnes, repräsentatives, 'normalisiertes' Tupel aus einer
bestimmten Menge von Atomplätzen
auszuwählen.
Die Atomplätze
werden gemäß einer
bevorzugen Reihenfolgevereinbarung geordnet, indem zuerst die faktischen
Längen
der Seiten der Form bestimmt werden, die durch das Verbinden der ausgewählten Plätze gebildet
wird. Andere Reihenfolgevereinbarungen sind auch möglich. Der
erste und zweite Platz in der Reihenfolge sind diejenigen Plätze, die
am weitesten entfernt sind und die längstmögliche Seite eines Polygons
bilden, das jeden der ausgewählten
Plätze
als einen Scheitelpunkt aufweist. Der dritte Platz in der Reihenfolge
ist der Platz, der am weitesten von jedem der beiden ersten Plätze entfernt
ist und die nächstlängste Seite
des Polygons bildet. Der zweite Platz in der Reihenfolge wird dann
der Platz an dem Scheitelpunkt, an dem die beiden früher gebildeten
Seiten sich schneiden. Der erste Platz in der Reihenfolge wird dann der
andere Platz an der längstmöglichen
Seite. Das Ordnen geht weiter durch Auswählen des vierten Platzes als
desjenigen verbleibenden Atomplatzes, der die weiteste Entfernung
von dem dritten Platz hat, des fünften Platzes
als des verbleibenden Atomplatzes, der der am weitesten von dem
vierten Platz entfernte ist usw., bis alle Plätze des Tupels 335 geordnet
sind.The process of selecting a single, representative, order-independent tuple (= combination) is called 'normalization'. Normalization involves determining a unique order, given a set of Atoms; the order imposed is independent of the order in which the atomic sites are given. This is done by imposing an ordering agreement to select a single, representative, 'normalized' tuple from a particular set of atomic sites. The atomic locations are ordered according to a preferred order arrangement by first determining the actual lengths of the sides of the form formed by connecting the selected places. Other order agreements are also possible. The first and second places in the order are those places furthest away and forming the longest possible side of a polygon having each of the selected places as a vertex. The third place in the order is the space furthest from each of the first two squares and forming the next longest side of the polygon. The second place in the order then becomes the place at the vertex where the two previously formed sides intersect. The first place in the order then becomes the other place on the longest possible side. The ordering proceeds by selecting the fourth place as the remaining atomic place having the farthest distance from the third place, the fifth place as the remaining atomic place farthest from the fourth place, and so on until all the places of the tuple 335 are ordered.
Zum
Beispiel kann unter Benutzung eines Tupels 335 von drei
Atomplätzen
H, I, und J ein Dreieck 336 gebildet werden, dessen Seiten
gemäß der oben
beschriebenen Reihenfolgevereinbarung geordnet sind. Um dies zu
tun, bildet die längste
Entfernung I-J zwischen irgend zwei der Plätze H, I, J die längste Seite
des Dreiecks 336. Die zweite Seite ist durch die größte Entfernung
von entweder I oder J zu dem verbleibenden Platz H bestimmt. In
diesem Fall ist dies die Entfernung I-H. Folglich ist I der zweite
Platz in der Reihenfolge, da er sich an dem Scheitelpunkt befindet,
der I-J und I-H gemeinsam ist; der erste Platz in der Reihenfolge
ist J, der der andere Scheitelpunkt auf der längsten Seite ist; und der dritte
Platz in der Reihenfolge wird der allein verbleibende Platz H.For example, using a tuple 335 of three atoms H, I, and J a triangle 336 whose pages are arranged according to the order of arrangement described above. To do this, the longest distance IJ between any two of the places H, I, J forms the longest side of the triangle 336 , The second side is determined by the greatest distance from either I or J to the remaining H space. In this case, this is the distance IH. Thus, I is the second place in the order since it is at the vertex that is IJ and IH in common; the first place in the order is J, which is the other vertex on the longest side; and the third place in the order becomes the only remaining place H.
Beachte,
daß Verbesserungen
der Vereinbarung notwendig sind, um irgendwelche vorhandenen Symmetrien
in dem Polygon zu brechen. Zum Beispiel kann, wenn die Seiten I-H
und I-J von gleicher Länge
sind, die Reihenfolge nicht auf der Entfernung allein gegründet werden,
sondern andere Kriterien sollten benutzt werden. Diese Kriterien
könnten
auf anderen Attributen des Tupels gegründet werden, wie z.B. die Ordnungszahlen
der Atome an den Plätzen,
chemische Eigenschaften usw. Zum Beispiel würde in dem Fall, in dem I-H und
I-J von gleicher Länge
sind, der Atomplatz I der zweite in der Reihenfolge sein, da er
der Scheitelpunkt ist, der der längsten
und der zweitlängsten
Seite (gleiche Seiten) gemeinsam ist. Jedoch ist die Reihenfolge
der Atomplätze
J und H unklar und kann zum Beispiel durch Auswählen desjenigen Platzes aus
J und H mit der höchsten
Ordnungszahl als der erste Platz in der Reihenfolge ausgewählt werden. Ähnliche
Betrachtungen könnten
in dem Fall benutzt werden, indem das Dreieck 336 gleichseitig
ist.Note that improvements to the agreement are necessary to break any existing symmetries in the polygon. For example, if the pages IH and IJ are of equal length, the order can not be based on the distance alone, but other criteria should be used. These criteria could be based on other attributes of the tuple, such as the ordinal numbers of the atoms in the sites, chemical properties, etc. For example, in the case where IH and IJ are of equal length, the atomic site I would be the second in order since it is the vertex common to the longest and the second longest side (same sides). However, the order of the atomic places J and H is unclear and can be selected, for example, by selecting the place of J and H having the highest ordinal number as the first place in the order. Similar considerations could be used in the case by the triangle 336 is equilateral.
Nachdem
das Tupel 335 einmal normalisiert ist, wie oben beschrieben,
wird ein eindeutiger Index gebildet, der das Tupel 335 repräsentiert.
Dieser Index kann erstellt werden durch Benutzen irgendeiner Anzahl geometrischer
Merkmale, Attribute der Plätze
des Tupels, chemische und/oder physikalische Informationen des Tupels
oder der Atomplätze
des Tupels usw. Zum Beispiel werde angenommen, daß der Atomplatz
J ein zweifach gebundenes Stickstoffatom ist, I ein einfach gebundenes
Kohlenstoffatom ist und der Atomplatz H ein zweifach gebundenes
Kohlenstoffatom ist. Weiter ist zu beachten, daß das Dreieck 336 eine
längste
Seite der Länge
l1, eine zweitlängste
Seite der Länge
l2 und eine dritte Seite der Länge
l3 Besitzt, In ähnlicher
Weise besitzt das Dreieck 336 die Winkel Θ1, Θ2 und Θ3, die den
geordneten Atomplätzen
J, I, und H entsprechen. Mit diesen Informationen kann ein eindeutiger
Index, der dieses Tupel J-I-H beschreibt, gebildet werden unter Benutzung
von keiner oder mehreren der Seiten l1-l3, keinem oder mehreren
der Winkel Θ1-Θ3, keiner
oder mehreren der Bezeichnungen der Bindungsart (einfach gebunden,
doppelt gebunden usw.), keiner oder mehreren der chemischen Arten
(Stickstoff, Kohlenstoff usw.) und/oder keinem oder mehreren der
physikalischen Attribute (Atomgewicht der Atome an den Plätzen, Elektronegativität usw.)
usw. Bei einem bevorzugten Ausführungsbeispiel
wird der Index gebildet durch Benutzen der Längen l1, l2, des Winkels Θ2 und der
Atomart des Atoms an dem zweiten Platz in der Reihenfolge. Bei anderen
Ausführungsbeispielen
kann es erwünscht sein,
Indizes zu bilden, wenn und nur wenn die Längen l1 und/oder l2 einen bestimmten
Schwellwert überschreiten
und/oder der Winkel Θ2
einen bestimmten Schwellwert überschreitet;
typische Schwellwerte können sein
1 Angström
für den
Betrag der Länge
und 10 Grad für
die Winkelgröße. Schließlich kann
es gelegentlich erwünscht
sein, den Index durch Benutzen der Längen l1, l2 und des größten Winkels
in dem Dreieck 336, das durch das Tupel gebildet wird,
zu bilden.After the tuple 335 Once normalized, as described above, a unique index is formed, which is the tuple 335 represents. This index can be constructed by using any number of geometric features, attributes of the tuple's locations, chemical and / or physical information of the tuple or atomic sites of the tuple, etc. For example, suppose that the atomic site J is a doubly bonded nitrogen atom is a single-bonded carbon atom and the atomic site H is a double-bonded carbon atom. Next, note that the triangle 336 a longest side of the Length l1, a second longest side of length l2 and a third side of length l3 Owned, similarly possesses the triangle 336 the angles Θ1, Θ2, and Θ3 corresponding to the ordered atomic sites J, I, and H. With this information, a unique index describing this tuple JIH may be formed using one or more of the pages l1-l3, none or more of the angles Θ1-Θ3, any one or more of the terms of the binding type (single bound, double bound etc.), none or more of the chemical species (nitrogen, carbon, etc.) and / or any one or more of the physical attributes (atomic weight of the atoms in the sites, electronegativity, etc.), etc. In a preferred embodiment, the index is formed by use the lengths l1, l2, the angle Θ2 and the atomic type of the atom in the second place in the order. In other embodiments, it may be desirable to form indices if and only if the lengths l1 and / or l2 exceed a certain threshold and / or the angle Θ2 exceeds a certain threshold; Typical thresholds can be 1 angstrom for the amount of length and 10 degrees for the angle size. Finally, it may occasionally be desirable to use the index by using lengths l1, l2 and the largest angle in the triangle 336 formed by the tuple to form.
Die
obige Diskussion vorausgesetzt werden diese Tupel erstellt, indem
man Gebrauch macht von der Referenztupel-Auswahlmenge während des
Referenz-Speicherungsprozesses 500 und der Vergleichstupel-Auswahlmenge
während
des Vergleichsprozesses 600. Bei einem bevorzugten Ausführungsbeispiel
wird jede mögliche
Kombination von Mitgliedsplätzen
in entweder der Referenztupel-Auswahlmenge oder der Vergleichstupel-Auswahlmenge
gebildet. Bei alternativen Ausführungsbeispielen
können
weniger Tupel gebildet werden. Zum Beispiel wird in 3D ein
Tupel 345 durch die Atomplätze I, J und den Attrappenplatz
Du gebildet. Dieses Tupel wird normalisiert wie oben erklärt, und der
entsprechende eindeutige Index wird erstellt. In ähnlicher
Weise wird jedes andere mögliche
Tupel, typischerweise 355 (DGI) in 3E gebildet,
normalisiert, und es wird ein Index erstellt. Beachte, daß jeder
der Indizes für
das zugehörige
Tupel eindeutig und invariant ist bei der Translation 295 und
den Rotationen 290 der Molekülstruktur (200, 250)
und irgendwelchen Rotationen 215 jeder der beiden Molekülteilstrukturen
(210, 220) um irgendeine rotierbare Bindung 218.Given the discussion above, these tuples are created by making use of the reference tuple selection set during the reference storage process 500 and the comparison tuple selection set during the comparison process 600 , In a preferred embodiment, each possible combination of member seats is formed in either the reference tuple selection set or the comparison tuple selection set. In alternative embodiments, fewer tuples may be formed. For example, in 3D a tuple 345 formed by the atomic sites I, J and the dummy place Du. This tuple is normalized as explained above and the corresponding unique index is created. Similarly, any other possible tuple will, typically 355 (DGI) in 3E formed, normalized, and an index is created. Note that each of the indices for the associated tuple is unique and invariant in translation 295 and the rotations 290 the molecular structure ( 200 . 250 ) and any rotations 215 each of the two partial molecular structures ( 210 . 220 ) about any rotatable bond 218 ,
Zusätzlich wird
für jedes
gebildete Tupel (335, 345, 355) ein schiefwinkliger,
lokaler Koordinatenrahmen 245, der dem Tupel zugeordnet
ist, in der oben beschriebenen Weise abgeleitet. Vektorinformationen
sind mit jedem Vektor 238 verbunden und werden in jedem
der schiefwinkligen, lokalen Koordinatenrahmen 245 dargestellt.
Daher sind die Vektorinformationen, die Identität der Molekülstruktur 200, die
Identitäten
der Molekülteilstrukturen
(210, 220), die Identität der rotierbaren Bindung 218,
der Index 414, das Tupel 335 und der schiefwinklige,
lokale Koordinatenrahmen 245 alle einander zugeordnet.In addition, for each tuple formed ( 335 . 345 . 355 ) a skewed, local coordinate frame 245 , which is associated with the tuple, derived in the manner described above. Vector information is with every vector 238 connected and in each of the skewed, local coordinate frames 245 shown. Therefore, the vector information is the identity of the molecular structure 200 , the identities of the partial molecular structures ( 210 . 220 ), the identity of the rotatable bond 218 , the index 414 , the tuple 335 and the skewed, local coordinate frame 245 all assigned to each other.
Vektorinformationen
sind Informationen über
einen bestimmten Vektor 238 und umfassen die Darstellung
des Vektors in dem schiefwinkligen, lokalen Koordinatenrahmen 245.
Bei einem bevorzugten Ausführungsbeispiel
sind diese Vektorinformationen die explizite und/oder implizite
Darstellung der rotierbaren Bindung 218, wie oben beschrieben
(2A).Vector information is information about a particular vector 238 and include the representation of the vector in the skewed, local coordinate frame 245 , In a preferred embodiment, this vector information is the explicit and / or implicit representation of the rotatable bond 218 , as described above ( 2A ).
Beachte,
daß ein
ausgewähltes
Tupel 335 und das zugehörige,
gebildete Dreieck 336 auch in einer anderen als der Molekülstruktur 200 erscheinen
können.
Dies macht die Verbesserung der Vektorinformationen unter Einschluß der oben
beschriebenen Molekülstruktur
notwendig. Dies erlaubt es, die einzelne Molekülstruktur 200, der
die Vektorinformationen entsprechen, zu identifizieren.Note that a selected tuple 335 and the associated educated triangle 336 also in another than the molecular structure 200 can appear. This necessitates the improvement of the vector information including the above-described molecular structure. This allows the single molecular structure 200 to identify the vector information.
4 ist
ein Blockdiagramm einer Datenstruktur 400, die einen Index 414,
der einem Tupel entspricht (typischerweise 335, 345, 355),
Informationen über
die Identitäten
der Atomplätze
zuordnet, die an dem Tupel teilhaben, und Informationen, die der
Darstellung 238A des Vektors 238 in dem schiefwinkligen,
lokalen Koordinatenrahmen 245 des Tupels entsprechen, das
den Index 414 erzeugt. Beachte, daß das Tupel, das dem Index 414 zugeordnet
ist, mehr als einmal in einer Molekülstruktur (200, 250)
erscheinen kann oder in mehr als einer Molekülstruktur (200, 250)
in einer Datenbank D, die eine Vielzahl von Molekülstrukturen
(200, 250) enthält. Als Ergebnis gibt es im
allgmeinen mehr als einen Eintrag 412 von Vektorinformationen
in einem Datensatz 425 der Datenstruktur 400.
Folglich schließt
jeder solche Eintrag von Vektorinformationen, typischerweise 412,
Identifizierungsinformationen für
jede der Molekülstrukturen 421A-421N ein,
in denen das Tupel, das den Index 414 erstellt, erscheint.
Ein Datensatz 425 enthält
auch das Rahmentupelfeld, das alle die Informationen umfaßt, die
sich auf den Index 410, das Rahmentupel, das ihn erzeugte,
und mögliche
andere Informationen beziehen. 4 is a block diagram of a data structure 400 that have an index 414 that corresponds to a tuple (typically 335 . 345 . 355 ), Information about the identities of the atomic sites that participate in the tuple, and information that the representation 238A of the vector 238 in the skewed, local coordinate frame 245 of the tuple corresponding to the index 414 generated. Note that the tuple that is the index 414 is assigned more than once in a molecular structure ( 200 . 250 ) or in more than one molecular structure ( 200 . 250 ) in a database D containing a plurality of molecular structures ( 200 . 250 ) contains. As a result, there is generally more than one entry 412 of vector information in a record 425 the data structure 400 , Thus, each includes such entry of vector information, typically 412 , Identification information for each of the molecular structures 421A - 421N one in which the tuple containing the index 414 created, appears. A record 425 Also contains the frame dupefield that covers all the information that pertains to the script 410 The frame tuple that generated it, and possible other information relate.
Wie
oben beschrieben wird der eindeutige Index 414 gebildet,
der das Tupel 335 darstellt. Dieser Index 414 kann
erstellt werden durch Benutzen irgendeiner Anzahl geometrischer
Merkmale, Attribute oder Plätze des
Tupels, chemischer oder physikalischer Informationen des Tupels
oder der Atomplätze
des Tupels usw. Zusätzlich
kann dieser Index auf eine Position in einer eindimensionalen linearen
Anordnung wie 400 abgebildet werden durch Benutzen von
Standard-Positionsberechnungsverfahren (z.B. 'Schritt'-Berechnung). Zum Beispiel würde unter
Benutzung von l1, l2, Θ2
und der SYBYL-Atomart des zweiten in der (normalisierten) Reihenfolge
der Atomplätze
für die
Bildung eines Index der berechnete Offset (d.h. die Stelle in der
Datenstruktur 400) wie folgt bestimmt werden:
- 1: quantisiere den Wert VAi jedes der
Attribute Ai (i = 1, 2, 3, 4, ...) durch
Auswählen
des ganzzahligen Wertes des Ausdrucks: wobei
min(Ai) der zulässige Minimalwert für das Attribut
Ai ist, max(Ai)
der zulässige
Maximalwert für
das Attribut Ai ist, SCHRITTE (Ai) die datenabhängige Anzahl der Quantisierungsschritte
ist, in welchem das Intervall [min (Ai),
max (Ai)] unterteilt ist (diese Anzahl von
Schritten wird beschlossen und vor dem Anwenden des Verfahrens festgelegt),
und i läuft
durch die Menge der Attribute, die benutzt werden, um den Index 410 zu
bilden. Beispiel: wenn das Längenattribut
l1 den Wert 1,3 Angström
hat und angenommen wird, daß der
Bereich der möglichen
Werte, der sich von 0,9 Angström
bis 4,5 Angström
erstreckt, in 64 Quantisierungsschritte unterteilt wurde, würde der
abgeleitete quantisierte Wert für
l1 sein:
As described above, the unique index 414 formed, which is the tuple 335 represents. This index 414 can be created by using any number of geometric features, attributes or locations of the tuple, chemical or physical information of the tuple or atomic sites of the tuple, etc. In addition, this index may refer to a position in a one-dimensional linear array 400 can be mapped by using standard position calculation methods (eg 'step' calculation). For example, using l1, l2, Θ2 and the SYBYL atomic species of the second one in the (normalized) order of atomic sites to form an index, the computed offset (ie, the location in the data structure 400 ) are determined as follows: - 1: quantize the value V Ai of each of the attributes A i (i = 1, 2, 3, 4, ...) by selecting the integer value of the expression: where min (A i ) is the minimum allowed value for the attribute A i , max (A i ) is the maximum allowable value for the attribute A i , STEPS (A i ) is the data-dependent number of quantization steps in which the interval [min ( A i ), max (A i )] is divided (this number of steps is decided and set before applying the method), and i passes through the set of attributes used to the index 410 to build. For example, if the length attribute l1 is 1.3 angstroms and it is assumed that the range of possible values ranging from 0.9 angstroms to 4.5 angstroms has been divided into 64 quantization steps, the derived quantized value would be be l1:
In ähnlicher
Weise wird der quantisierte Wert jedes Attributes Ai bestimmt.
Beachte, daß für Attribute Ai, die inhärent Werte einer endlichen
Menge von ganzen Zahlen (z.B. 4l SYBYL-Atomarten) annehmen können, die
Variable SCHRITTE (Ai) auf die Mächtigkeit
dieser Menge ganzer Zahlen reduziert werden kann.
- 2:
nimm die quantisierten Werte Ai und berechne
die Position in der linearen Anordnung 400 unter Benutzen eines 'Schritt'-Berechnungsverfahrens. In diesem speziellen
Beispiel haben wir die folgenden Entsprechungen: A1 <-> l1, A2 <-> l2, A3 <-> Θ, A4 <-> SYBYLAtomArt. Die
Berechnung des Offset liefert:
Similarly, the quantized value of each attribute A i is determined. Note that for attributes A i that can inherently take on values of a finite set of integers (eg, 4L SYBYL atom types), the variable STEPS (A i ) can be reduced to the power of that set of integers. - 2: take the quantized values A i and calculate the position in the linear array 400 using a 'step' calculation method. In this particular example we have the following equivalents: A 1 <-> I 1 , A 2 <-> I 2, A 3 <-> I, A 4 <-> SYBYLAtomArt. The calculation of the offset provides:
Die
Struktur 400 wird von den Prozessen 500 und 600,
wie unten beschrieben, benutzt. Die Diskussion hat bis jetzt implizit
angenommen, daß jede
Molekülstruktur
(200, 250) in der Datenbank D der Moleküle zumindest
eine rotierbare Bindung 218 enthält.The structure 400 gets from the processes 500 and 600 as described below. The discussion has implicitly assumed that every molecular structure ( 200 . 250 ) in the database D of the molecules at least one rotatable bond 218 contains.
Aber
es wurde früher
darauf hingewiesen, daß dies
nicht der Fall sein kann. In der Tat sind die folgenden Situationen
möglich:
(a) starre Teilstrukturen mit keinen rotierbaren Bindungen; mit
anderen Worten können
einige Molekülstrukturen
in der Datenbank D starr sein und keine rotierbaren Bindungen enthalten;
(b) starre Teilstrukturen mit einer rotierbaren Bindung, die von
der Teilstruktur ausgeht; dies ist zum Beispiel der Fall der starren
Teilstrukturen 210 und 220 in 2;
und (c) starre Teilstrukturen mit mehr als einer rotierbaren Bindung,
die von der Teilstruktur ausgehen. Die Tatsache, daß Molekülstrukturen
mit einer oder mehreren der obigen drei Eigenschaften auch in der
Datenbank D vorhanden sind, macht eine leichte Modifikation der
oben beschriebenen Prozedur zur Indexerzeugung notwendig.But it was earlier pointed out that this can not be the case. In fact, the following situations are possible: (a) rigid substructures with no rotatable bonds; in other words, some molecular structures in database D may be rigid and contain no rotatable bonds; (b) rigid substructures with a rotatable bond emanating from the substructure; This is the case of the rigid substructures, for example 210 and 220 in 2 ; and (c) rigid substructures having more than one rotatable bond emanating from the substructure. The fact that molecular structures having one or more of the above three properties are also present in the database D necessitates a slight modification of the index generation procedure described above.
Im
Fall der starren Molekülstrukturen,
die keine rotierbaren Bindungen enthalten (Fall (a) oben), kann der
Vektor 238 nicht mit Hilfe einer rotierbaren Bindung bestimmt
werden. Stattdessen kann bei einem bevorzugten Ausführungsbeispiel
der Vektor 238 leicht durch Identifizieren eines Paares
von Atomplätzen definiert werden:
ein solches Paar von Plätzen
könnte
z.B. durch das Paar von Atomplätzen
gebildet werden, die in der betrachteten Molekülstruktur die am weitesten
entfernten sind. Modifikationen dieser Prozedur sind auch möglich: das
Hauptziel hier ist das Erstellen eines Vektors 238. Die
Linie, die die beiden Plätze
des Paares verbindet, entspricht der Achse des Vektors 238.
Dies kann als äquivalent
dazu angesehen werden, eine 'erdachte rotierbare' Bindung 218 zu
haben, die die starre Teilstruktur 210 mit sich selbst
verbindet. Aber die Richtung des Vektors 238 kann nicht
mehr bestimmt werden, indem man Gebrauch macht von den Kennzeichnungen der
in Frage kommenden starren Teilstrukturen: Ein bevorzugtes Ausführungsbeispiel
führt eine
Modifikation ein, gemäß der die
Richtung von 238 bestimmt wird, indem man von den Zahlen
der Atomplätze
Gebrauch macht, die die (erdachte rotierbare) Bindung verbindet:
die Vereinbarung über
die Richtung wird als von dem niedriger (höher) nummerierten Atomplatz
zu dem höher
(niedriger) nummerierten Atomplatz verlaufend angenommen, durchgehend
für alle
einer oder mehrerer analysierter Molekülstrukturen 200.In the case of rigid molecular structures containing no rotatable bonds (case (a) above), the vector may be 238 can not be determined by means of a rotatable bond. Instead, in a preferred embodiment, the vector 238 can be readily defined by identifying a pair of Atoms: such a pair of sites could be formed, for example, by the pair of Atoms that are the farthest in the considered molecular structure. Modifications to this procedure are also possible: the main goal here is to create a vector 238 , The line connecting the two places of the pair corresponds to the axis of the vector 238 , This may be considered equivalent to a 'designed rotatable' bond 218 to have the rigid part structure 210 connects with itself. But the direction of the vector 238 can no longer be determined by making use of the markings of the rigid substructures in question: A preferred embodiment introduces a modification according to which the direction of 238 is determined by making use of the numbers of atomic sites connecting the (conceived rotatable) bond: the agreement on the direction is assumed to proceed from the lower (higher) numbered atomic place to the higher (lower) numbered atomic space all of one or more analyzed molecular structures 200 ,
Im
Falle der starren Molekülteilstrukturen
mit mehr als einer rotierbaren Bindung, die von der Teilstruktur
herrühren
(Fall (c) oben), gibt es eine Wahlmöglichkeit, wie der Vektor 238 definiert
ist. Zum Beispiel könnte eine
der rotierbaren Bindungen bei der Definition des Vektors 238 benutzt
werden. Alternativ könnte
der Vektor 238 mit Hilfe einer 'erdachten rotierbaren' Bindung definiert
werden.In the case of the rigid moieties having more than one rotatable bond resulting from the substructure (case (c) above), there is a choice such as the vector 238 is defined. For example, one of the rotatable bonds in the definition of the vector 238 to be used. Alternatively, the vector could be 238 be defined by means of a 'conceived rotatable' bond.
Wenn
die erdachten Bindungen erzeugt werden, kann es Situationen geben,
in denen Symmetrien gebrochen werden müssen. Zum Beispiel: Molekülstrukturen,
die zwei Paare von Atomplätzen
enthalten, wobei die Mitglieder des Paares sich in gleicher Entfernung
voneinander befinden. Um dieses Problem zu lösen, könnte zum Beispiel ein Ausführungsbeispiel
das Paar beibehalten, das den niedrigstnummerieren Atomplatz aufweist,
und das andere verwerfen.If
the imagined bonds are generated there can be situations
in which symmetries have to be broken. For example: molecular structures,
the two pairs of atoms
included, with the members of the couple at the same distance
from each other. To solve this problem, for example, an embodiment
maintain the pair that has the lowest-numbered atomic place,
and reject the other.
Mit
der beschriebenen Modifikation kann jetzt jede starre Molekülstruktur
mit 'einem Vektor 238' versehen werden,
der wie gewöhnlich
in jedem schiefwinkligen, lokalen Koordinatenrahmen 245 ausgedrückt werden
kann, der aus der Referenztupel-Auswahlmenge
erzeugt werden kann.With the modification described, any rigid molecular structure can now be labeled with a vector 238 ' as usual in any skewed, local coordinate frame 245 which can be generated from the reference tuple selection set.
Der
Prozeß 500 analysiert
eine Menge einer oder mehrerer Molekülstrukturen (200, 250)
in einer Datenbank D, die eine Vielzahl von Molekülstrukturen
(200, 250) enthält, durch Bestimmen für eine Vielzahl
von Indizes 410 keiner oder mehrerer Molekülstrukturen
(200, 250) und/oder Teilstrukturen (210, 220),
die Tupel enthalten, die im Hinblick auf die Attribute Ai, die benutzt wurden, um den Index 410 zu
bestimmen, ähnlich sind,
für welche
jede dieser Molekülstrukturen
(200, 250) und/oder Teilstrukturen (210, 220)
einen Eintrag 412 erzeugt, der
- (a)
eine der Molekülstrukturen
(200, 250) identifiziert (421A-421N),
die einem bestimmten Vektor 238 zugeordnet sind,
- (b) das Rahmentupel identifiziert, das den Index 414 erzeugte,
- (c) die Molekülteilstruktur
(210, 220) identifiziert (422A-422N),
aus der das Tupel gezogen wurde,
- (d) die Teilstruktur (210, 220) identifiziert
(423A-423N), die mit dem Ende der rotierbaren
Bindung 218 verbunden ist, die sich gegenüber dem
Ende befindet, das mit der Molekülteilstruktur
aus (b) am Platz der Anordnung der Struktur 400 verbunden
ist, die dem Index 414 entspricht,
The process 500 analyzes a set of one or more molecular structures ( 200 . 250 ) in a database D containing a plurality of molecular structures ( 200 . 250 ) by determining for a plurality of indices 410 no or more molecular structures ( 200 . 250 ) and / or substructures ( 210 . 220 ), which contain tuples that are in terms of the attributes A i used to the index 410 are similar for which each of these molecular structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) An entry 412 generated, the - (a) one of the molecular structures ( 200 . 250 ) identified ( 421A - 421N ), which is a specific vector 238 assigned,
- (b) the frame tuple identifies the index 414 generated
- (c) the molecular structure ( 210 . 220 ) identified ( 422A - 422N ) from which the tuple was drawn
- (d) the substructure ( 210 . 220 ) identified ( 423A - 423n ), which coincide with the end of the rotatable bond 218 (b) at the place of arrangement of the structure 400 connected to the index 414 corresponds,
Außerdem vermehrt
der Prozeß 500 diese
Einträge 412 mit
Vektorinformationen 238A über den Vektor 238 in
jedem der schiefwinkligen, lokalen Koordinatenrahmen 245,
die durch jeden der Indizes 414 in der gesamten Datenbank
D der Molekülstrukturen
vertreten werden. Zusätzliche
Informationen können
auch in diesen Einträgen 412 eingeschlossen
sein.In addition, the process increases 500 these entries 412 with vector information 238A about the vector 238 in each of the skewed, local coordinate frames 245 passing through each of the indexes 414 represented in the entire database D of the molecular structures. Additional information can also be found in these entries 412 be included.
Nachdem
der Prozeß 500 einmal
die Datenstruktur 400 besiedelt, enthält die Datenstruktur 400 alle der
Strukturen (200, 250) und/oder Teilstrukturen
(210, 220) in der gesamten Datenbank D, klassifiziert
gemäß den Tupelattributen,
die benutzt werden, um den Index 414 zu bestimmen, zusammen
mit invarianten Informationen über
den Vektor 238 (dieser Vektor kann realen oder erdachten
Bindungen entsprechen), der in diesen Strukturen (200, 250)
vorhanden ist, und mögliche
andere Informationen.After the process 500 once the data structure 400 populated, contains the data structure 400 all of the structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) in the entire database D, classified according to the tuple attributes used to make the index 414 to determine, along with invariant information about the vector 238 (this vector may correspond to real or imagined bonds) that exist in these structures ( 200 . 250 ), and possible other information.
5 ist ein Flußdiagramm, das die Schritte
des Besiedelns der Datenstruktur der 4 zeigt,
damit sie Strukturinformationen und andere Informationen über eines
oder mehrere Referenzmoleküle
enthält.
Dieser Prozeß wird
der Referenz-Speicherungsprozeß 500 genannt.
Der Prozeß 500 ordnet
einen Index 414, der einem Tupel (typisch 335, 345, 355)
entspricht, Vektorinformationen 420 zu, die der Darstellung 238A für jeden Vektor 238 entsprechen,
der einer starren Teilstruktur in dem schiefwinkligen, lokalen Koordinatenrahmen 245 des
Tupels zugeordnet ist, das den Index 414 erzeugt für jedes
Molekül
in der Datenbank D mit einer Vielzahl bekannter Moleküle. 5 FIG. 10 is a flowchart illustrating the steps of populating the data structure of the 4 shows to contain structural information and other information about one or more reference molecules. This process becomes the reference storage process 500 called. The process 500 assigns an index 414 which is a tuple (typical 335 . 345 . 355 ), vector information 420 to that of the representation 238A for every vector 238 corresponding to a rigid substructure in the skewed, local coordinate frame 245 of the tuple that is the index 414 generates for each molecule in the database D with a variety of known molecules.
Der
Prozeß 500 beginnt
durch Auswählen 505 eines
Moleküls
mit einer Identifizierung aus der Datenbank D mit bekannten Molekülen. Diese
Identifizierung kann irgendein bekannter Weg der Kennzeichnung eines
Moleküls
sein, wie das oben beschrieben wurde, z.B. ein Schema für die Nummerierung
der Moleküle.The process 500 begins by selecting 505 a molecule with an identification from the database D with known molecules. This identification may be any known way of labeling a molecule as described above, eg a scheme for the numbering of the molecules.
Der
Schritt 510 bestimmt die Anzahl starrer Teilstrukturen
(210, 220) in dem ausgewählten Molekül 505. Wenn Schritt 512 bestimmt,
daß es
nur eine starre Teilstruktur gibt, bedeutet dies, daß das fragliche
Molekül
starr ist und eine erdachte rotierbare Bindung erzeugt wird 513,
wie das früher
beschrieben wurde; dann wird diese starre Teilstruktur ausgewählt 520.
Wenn es mehr als eine Teilstruktur gibt, wird ein Paar von starren Teilstrukturen,
das in dem gewählten
Molekül 505 durch
eine rotierbare Bindung 218 verbunden ist, ausgewählt 515.
Eine typische rotierbare Bindung 218 zwischen den ausgewählten 515 starren
Teilstrukturen ist ein Vektor 238 mit einer Position und
Orientierung in dem globalen Koordinatenrahmen 235, wie
das oben in 2A beschrieben wurde.The step 510 determines the number of rigid substructures ( 210 . 220 ) in the selected molecule 505 , When step 512 determines that there is only one rigid substructure, this means that the mo lekül is rigid and an imaginary rotatable bond is generated 513 as described earlier; then this rigid substructure is selected 520 , If there is more than one substructure, there will be a pair of rigid substructures that are in the chosen molecule 505 through a rotatable bond 218 connected, selected 515 , A typical rotatable bond 218 between the selected 515 rigid substructures is a vector 238 with a position and orientation in the global coordinate frame 235 like the one above 2A has been described.
Im
Schritt 520 wird eine der Teilstrukturen des ausgewählten Paares 515 der
starren Teilstrukturen (210, 220) oder die einzige
starre Teilstruktur des Moleküls
ausgewählt.
Anschließend
wird im Schritt 525 ein Vektor 238 für die ausgewählte 520 starre
Teilstruktur bestimmt, und eine Referenztupel-Auswahlmenge wird geschaffen.In step 520 becomes one of the substructures of the selected pair 515 the rigid substructures ( 210 . 220 ) or the only rigid substructure of the molecule. Subsequently, in step 525 a vector 238 for the selected 520 fixed part structure, and a reference tuple selection set is created.
In
den Schritten 530, 535, 540, 545, 550 und 555 werden
ein Tupel, der zugeordnete schiefwinklige lokale Koordinatenrahmen 245 und
ein Index (= Index des Referenzrahmentupels) in der Datenstruktur 400 – wobei
der Index eindeutig für
das Tupel ist – für jedes
Tupel erzeugt, das aus der Referenztupel-Auswahlmenge gebildet werden kann. Bei
einem bevorzugten Ausführungsbeispiel
werden nur normalisierte Tupel benutzt (siehe oben).In the steps 530 . 535 . 540 . 545 . 550 and 555 become a tuple, the associated skewed local coordinate frame 245 and an index (= index of the reference frame tuple) in the data structure 400 Where the index is unique to the tuple, generates for each tuple that can be formed from the reference tuple selection set. In a preferred embodiment, only normalized tuples are used (see above).
Im
Schritt 530 wird ein Tupel erstellt durch Auswählen unter
den Mitgliedern der Referenztupel-Auswahlmenge. Im Schritt 535 wird
ein schiefwinkliger, lokaler Koordinatenrahmen 245 aus
dem Tupel erzeugt, das in 530 erzeugt wurde, wie das in
den 2 und 3 oben
beschrieben wurde; der Vektor 238, der der ausgewählten starren
Teilstruktur 520 zugeordnet ist, wird dargestellt 540 in
dem schiefwinkligen, lokalen Koordinatenrahmen 245, der
durch das Tupel definiert ist. Verschiedene Wege der Darstellung 540 des
Vektors 238 sind oben beschrieben worden.In step 530 a tuple is created by selecting from among the members of the reference tuple selection set. In step 535 becomes an oblique, local coordinate frame 245 produced from the tuple that is in 530 was generated, as in the 2 and 3 described above; the vector 238 that of the selected rigid substructure 520 is assigned is displayed 540 in the skewed, local coordinate frame 245 which is defined by the tuple. Different ways of presentation 540 of the vector 238 have been described above.
Im
Schritt 545 wird der Index 410, der dem erstellten
Tupel 530 zugeordnet ist, erzeugt (siehe oben bei bevorzugten
Ausführungsbeispielen
für das
Erzeugen von Indizes). Im Schritt 550 wird die Darstellung 540 des
Vektors 238 in der Datengruppe/Datenstruktur 400 gespeichert.
Beachte, daß der
Eintrag 412 dem Index 414 zugeordnet ist, der
dem ausgewählten/erstellten
Tupel 530 entspricht. Im Schritt 555 bestimmt
der Prozeß 500,
ob weitere Tupel aus den Mitgliedern der Referenztupel-Auswahlmenge 525 zu
erstellen sind 530. Wenn weitere Tupel zu erstellen sind,
werden die Schritte 530, 545, 540, 545, 550 und 555 wiederholt.
Wenn keine weiteren Tupel zu erstellen sind 555, wird das
identifizierte Molekül 505 geprüft 560,
um zu bestimmen, ob beide starren Teilstrukturen in dem ausgewählten Paar 520 von
Teilstrukturen (210, 22)0 verarbeitet wurden – mit 'Prozeß' ist hier gemeint,
daß ein
Eintrag 412 in der Datenstruktur 400 gemacht wurde.
Wenn eine der Teilstrukturen des ausgewählten Paares 515 noch
unverarbeitet bleibt 560, wird die unverarbeitete Teilstruktur ausgewählt 520,
und die Schritte 525, 530, 535, 540, 545, 550 und 555 werden
wiederholt. Wenn beide Teilstrukturen des Paares verarbeitet wurden 560,
bestimmt der Prozeß 500,
ob es weitere Paare 565 von Teilstrukturen 210, 220 in
dem ausgewählten
Molekül 505 gibt,
die durch rotierbare Bindungen 218 verbunden sind. Wenn
es weitere Paare von Teilstrukturen 565 gibt, die durch
rotierbare Bindungen in dem Molekül verbunden sind, wird der
Prozeß wiederholt,
beginnend beim Schritt 515.In step 545 becomes the index 410 that created the tuple 530 is generated (see above in preferred embodiments for generating indices). In step 550 becomes the representation 540 of the vector 238 in the data group / data structure 400 saved. Note that the entry 412 the index 414 associated with the selected / created tuple 530 equivalent. In step 555 the process determines 500 whether there are more tuples from the members of the reference tuple selection set 525 to create 530 , When more tuples are to be created, the steps become 530 . 545 . 540 . 545 . 550 and 555 repeated. If there are no more tuples to create 555 , becomes the identified molecule 505 checked 560 to determine if both rigid substructures in the selected pair 520 of substructures ( 210 . 22 ) 0 were processed - with 'process' here is meant that an entry 412 in the data structure 400 have been done. If one of the subtrees of the selected pair 515 remains unprocessed 560 , the unprocessed substructure is selected 520 , and the steps 525 . 530 . 535 . 540 . 545 . 550 and 555 are repeated. When both substructures of the pair have been processed 560 , determines the process 500 if there are more couples 565 of substructures 210 . 220 in the selected molecule 505 There are rotatable bonds 218 are connected. If there are more pairs of substructures 565 Given that there are rotatable bonds in the molecule, the process is repeated beginning with the step 515 ,
Wenn
alle die Paare der Teilstrukturen, die durch eine rotierbare Bindung 218 in
dem ausgewählten Molekül 505 verbunden
sind, verarbeitet wurden, bestimmt 570 der Prozeß 500,
ob es irgendwelche nicht verarbeiteten Moleküle in der Datenbank D gibt.
Wenn das der Fall ist, beginnt der Prozeß 500 wieder mit einem neu
ausgewählten
Molekül
beim Schritt 505. Wenn das nicht der Fall ist, endet 575 der
Prozeß 500,
der die Datenstruktur 400 mit allen möglichen Darstellungen 412 jedes
Vektors 238 in allen schiefwinkligen, lokalen Koordinatenrahmen 245 jedes
Moleküls 505 in
der Datenbank D besiedelt hat. Beachte, daß mehr als eine Darstellung
eines Vektors 238 (z.B. 412A-412N) in
der Datenstruktur 400 als einem bestimmten Index 414 zugeordnet
untergebracht werden kann, der einen Datensatz 425 der
Datenstruktur 400 identifiziert.If all the pairs of substructures, by a rotatable bond 218 in the selected molecule 505 are connected, processed 570 the process 500 Whether there are any unprocessed molecules in the D database. If so, the process begins 500 again with a newly selected molecule at the step 505 , If that is not the case, ends 575 the process 500 that the data structure 400 with all possible representations 412 every vector 238 in all skewed, local coordinate frames 245 every molecule 505 in the database D has settled. Note that more than one representation of a vector 238 (eg 412A - 412N ) in the data structure 400 as a specific index 414 can be accommodated assigned to a record 425 the data structure 400 identified.
6 ist ein Flußdiagramm, das die Schritte
des Vergleichsprozesses 600 zeigt. Der Vergleichsprozeß benutzt
die Datenstruktur 400, die durch den Referenz-Speicherungsprozeß 500 besiedelt
wurde. 6 is a flow chart showing the steps of the comparison process 600 shows. The comparison process uses the data structure 400 that through the reference storage process 500 was colonized.
Der
Prozeß 600 bildet
Tupel aus der Vergleichstupel-Auswahlmenge irgendeines gegebenen
Testmoleküls
und eine Menge von Indizes 410, die diesen Tupeln in der
oben beschriebenen Weise entspricht. Diese Menge von Indizes ist
die 'Testindex'-Menge. Wenn die
Information in der Datenstruktur 400 und die Testindexmenge
gegeben sind, kann der Prozeß 600 diejenigen
Strukturen (200, 250) und/oder Teilstrukturen
(210, 220) all der Moleküle in der Datenbank bestimmen,
die Tupel enthalten, die identische Attribute Ai gemeinsam
mit den Tupeln des Testmoleküls
benutzen, die benutzt werden, um die Testindexmenge zu erzeugen.
Darüberhinaus
kann der Prozeß 600 durch
Benutzen der zählenden
Datenstruktur 700 und der Informationen (410, 420)
bestimmen, ob das gesamte Testmolekül oder ein Teil identisch mit
einer oder mehreren Strukturen (200, 250) und/oder
Teilstrukturen (210, 220) in der Datenbank ist.The process 600 forms tuples from the comparative tuple selection amount of any given test molecule and a set of indices 410 which corresponds to these tuples in the manner described above. This set of indices is the 'test index' set. If the information in the data structure 400 and the test index set are given, the process can 600 those structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) of all the molecules in the database that contain tuples that use identical attributes A i together with the tuples of the test molecule that are used to generate the test index set. In addition, the process can 600 by using the counting data structure 700 and the information ( 410 . 420 ) determine whether the entire test molecule or part is identical to one or more structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) in the database.
Der
Prozeß 600 beginnt
durch Auswählen 605 eines
Testmoleküls
aus einer Sammlung von einem oder mehreren Testmolekülen. Dieses
Testmolekül
wird mit der Datenbank D verglichen, um diejenigen Moleküle von D
zu identifizieren, die die Molekülteilstrukturen
(210, 220), enthalten, die mit dem Testmolekül übereinstimmen.
Mit 'Übereinstimmung' ist hier gemeint,
daß: (a)
das identifizierte Molekül
(oder die Moleküle)
in D ist (sind) mit em Testmolekül
identisch; oder (b) das identifizierte Molekül (oder die Moleküle) in D
enthält (enthalten)
Teilstrukturen (210, 220), deren Teile mit dem
Testmolekül
in seiner Gesamtheit übereinstimmen; oder
(c) das Testmolekül
enthält
einen Teil, der mit dem identifizierten Molekül (oder den Molekülen) in
D in seiner Gesamtheit übereinstimmt;
oder (d) das Testmolekül
enthält
einen Teil, der mit Teilen einer oder mehrerer der starren Teilstrukturen
in dem identifizierten Molekül
(oder den Molekülen)
von D übereinstimmt.
Es ist zu beachten, daß das
Testmolekül
und das identifizierte Molekül
(oder die Moleküle)
aus D nicht die gleiche Form haben müssen. Der Prozeß 600 bestimmt
im wesentlichen, ob das Testmolekül mit einem oder mehreren der
Moleküle
in D mit einer bestimmten Konformation der letzteren übereinstimmt.
Es sollte jedoch beachtet werden, daß der Prozeß 600 nicht die geforderten
Rotations- und Translationstransformationen bestimmt, die das (die)
identifizierte (n) Molekül
(e) in die Konformation bringt, die am besten in das Testmolekül paßt. Aufgrund
der Tatsache, daß die
Kenntnis der Position und Orientierung der rotierbaren Bindung 218 in
dem globalen Koordinatenrahmen 235 die Position und Orientierung
der mit ihren Endpunkten verbundenen starren Teilstrukturen beschränkt, aber
nicht vollständig
spezifiziert, ist beträchtlicher
Rechenaufwand erforderlich, um solche Konformationen zu bestimmen.
Dieses Problem, das Erkennung genannt wird, wird durch die US-Patentanmeldung
577 353 angesprochen, die betitelt ist "System and Method for Conformationally-Flexible
Recognition" von
I. Rigoutsos, die am gleichen Tag wie diese Anmeldung angemeldet
wurde und die in ihrer Gesamtheit hier eingegliedert wird.The process 600 begins by selecting 605 a test molecule from a collection of one or more test molecules. This test molecule is compared with the database D to identify those molecules of D that have the molecular substructures ( 210 . 220 ) that match the test molecule. By 'correspondence' is meant here that: (a) the identified molecule (or molecules) in D is (are) identical to a test molecule; or (b) the identified molecule (or molecules) in D contains (contains) substructures ( 210 . 220 ) whose parts coincide with the test molecule in its entirety; or (c) the test molecule contains a moiety that matches the identified molecule (or molecules) in D in its entirety; or (d) the test molecule contains a moiety that matches parts of one or more of the rigid substructures in the identified molecule (s) of D. It should be noted that the test molecule and the identified molecule (or molecules) of D need not have the same shape. The process 600 essentially determines whether the test molecule matches one or more of the molecules in D with a particular conformation of the latter. It should be noted, however, that the process 600 does not determine the required rotational and translational transformations that will place the identified molecule (s) in the conformation most suitable for the test molecule. Due to the fact that the knowledge of the position and orientation of the rotatable bond 218 in the global coordinate frame 235 Although the position and orientation of the rigid substructures associated with their endpoints are limited but not fully specified, considerable computational effort is required to determine such conformations. This problem, called detection, is addressed by U.S. Patent Application 577,353, entitled "System and Method for Conformationally-Flexible Recognition" by I. Rigoutsos filed the same day as this application and in its entirety incorporated here.
In
dem wahlweisen Schritt 610 bestimmt der Prozeß 600,
ob es eine oder mehrere rotierbare Bindungen in dem Testmolekül gibt,
die irgendeine der Standardlösungen
benutzt. Dadurch werden die starren Teilstrukturen (210, 220)
in dem Testmolekül
identifiziert.In the optional step 610 the process determines 600 Whether there are one or more rotatable bonds in the test molecule using any of the standard solutions. As a result, the rigid substructures ( 210 . 220 ) in the test molecule.
Wenn
es nur eine starre Teilstruktur gibt, wird diese starre Teilstruktur
ausgewählt 620.
Wenn es mehr als eine Teilstruktur gibt, werden zwei starre Teilstrukturen,
die durch die rotierbaren Bindungen 218 in dem Testmoleküle 605 verbunden
sind, ausgewählt 615.If there is only one rigid substructure, this rigid substructure is selected 620 , If there is more than one substructure, two rigid substructures are created by the rotatable bonds 218 in the test molecule 605 are selected 615 ,
Im
Schritt 620 wird eine der Teilstrukturen des ausgewählten Paares 615 der
starren Teilstrukturen ausgewählt.
Eine Vergleichstupel-Auswahlmenge für die ausgewählte Teilstruktur
des Testmoleküls
wird erstellt 625.In step 620 becomes one of the substructures of the selected pair 615 the rigid substructures selected. A comparison tuple selection set is made for the selected substructure of the test molecule 625 ,
In
den Schritten 630, 635, 645 werden ein
Tupel, der zugehörige
schiefwinklige, lokale Koordinatenrahmen 245 und ein Index
(= Testrahmen-Tupelindex), der für
das Tupel eindeutig ist, für
jedes Tupel erzeugt, das aus der Vergleichstupel-Auswahlmenge ausgewählt werden
kann. Bei einem bevorzugten Ausführungsbeispiel
werden nur normalisierte Tupel benutzt (vgl. oben).In the steps 630 . 635 . 645 become a tuple, the associated oblique, local coordinate frame 245 and generates an index (= test frame tuple index) unique to the tuple for each tuple that can be selected from the comparison tuple selection set. In a preferred embodiment, only normalized tuples are used (see above).
Im
Schritt 630 wird ein Tupel durch Auswählen unter den Mitgliedern
der Vergleichstupel-Auswahlmenge erstellt. Im Schritt 635 wird
ein schiefwinkliger, lokaler Koordinatenrahmen 245 aus
dem Tupel, das im Schritt 630 erstellt wurde, erzeugt,
wie das in den 2 und 3 oben
beschrieben wurde. Im Schritt 645 wird der Testrahmen-Tupelindex 645i erzeugt,
der mit dem erstellten Tupel 630 verbunden ist (siehe oben
für bevorzugte
Ausführungsbeispiele
zum Erzeugen von Indizes).In step 630 a tuple is created by selecting from among the members of the comparison tuple selection set. In step 635 becomes an oblique, local coordinate frame 245 from the tuple that is in the crotch 630 was created, like that in the 2 and 3 has been described above. In step 645 becomes the test frame tuple index 645i generated with the created tuple 630 (see above for preferred embodiments for generating indices).
Beachte,
daß die
Schritte 610, 615, 620, 625, 630, 635 und 645 für das Testmolekül in gleicher
Weise durchgeführt
werden wie die entsprechenden Schritte 510, 515, 520, 520, 525, 530, 535 und 545 für alle die Referenzmoleküle in der
Datenbank D durch den Prozeß 500 durchgeführt wurden.
Daher ist der Testrahmen-Tupelindex 645i eindeutig
für das
zugehörige
Tupel und invariant bei Translatation 295 und Rotationen 290 der
Molekülstruktur (200, 250)
und irgendwelchen Rotationen 215 irgendeiner Teilstruktur
(210, 220) um rotierbare Bindungen 218,
die in dem ausgewählten
Molekül 605 vorhanden
sind.Note that the steps 610 . 615 . 620 . 625 . 630 . 635 and 645 for the test molecule are carried out in the same way as the corresponding steps 510 . 515 . 520 . 520 . 525 . 530 . 535 and 545 for all the reference molecules in the database D through the process 500 were carried out. Therefore, the test frame tuple index is 645i unique to the associated tuple and invariant to translatation 295 and rotations 290 the molecular structure ( 200 . 250 ) and any rotations 215 any substructure ( 210 . 220 ) around rotatable bonds 218 that are in the selected molecule 605 available.
Im
Schritt 650 ruft der Prozeß 600 Darstellungen
und andere Informationen unter Benutzung des Testrahmen-Tupelindex
aus der Datenstruktur (Anordnung) 400 ab. In dem Fall,
in dem das Testmolekül
(in jeder Hinsicht, die durch den gebildeten Index eingefangen wird:
z.B. physikalischer, chemischer, geometrischer usw.) identisch mit
einem oder mehreren der Moleküle
in der Datenbank D ist, gibt es zumindest einen Eintrag 412 von
Vektorinformationen 420 in dem Datensatz 425,
auf den durch jeden erzeugten Testrahmen-Tupelindex 645i in
der Datenstruktur 400 zugegriffen wird, der die gleichen
Vektorinformationen aufweist, die einen Vektor 238 in dem
Testmolekül
beschreiben. Der Testrahmen-Tupelindex 645i greift auf
den Datensatz 425 zu, weil der Testrahmen-Tupelindex 645i mit
dem Referenzrahmen-Tupelindex 414 identisch
ist, da sie beide aus den gleichen Molekülteilstrukturen (210, 220)
unter Benutzung der gleichen Schritte (510, 515, 520, 525, 530, 535, 545 bzw. 610, 615, 620, 625, 630, 635, 645)
erzeugt wurden.In step 650 the process calls 600 Representations and other information using the test frame tuple index from the data structure (arrangement) 400 from. In the case where the test molecule (in all respects captured by the index formed: eg physical, chemical, geometric, etc.) is identical to one or more of the molecules in the database D, there is at least one entry 412 of vector information 420 in the record 425 On top of that generated by each test frame tupelin dex 645i in the data structure 400 which has the same vector information as a vector 238 in the test molecule. The test frame tuple index 645i accesses the record 425 too, because the test frame tuple index 645i with the reference frame tuple index 414 is identical, since they both consist of the same partial molecular structures ( 210 . 220 ) using the same steps ( 510 . 515 . 520 . 525 . 530 . 535 . 545 respectively. 610 . 615 . 620 . 625 . 630 . 635 . 645 ) were generated.
Es
sei jedoch bemerkt, daß es
andere Moleküle
(oder starre Teilstrukturen und/oder Teile von starren Teilstrukturen)
in der Datenbank D geben kann, die Tupel enthalten, die Referenzrahmen-Tupelindizes 414 erzeugen,
die die gleichen sind wie die Testrahmen-Tupelindizes 645i.
Dies geschieht, weil die entsprechenden Tupel hinsichtlich der gewählten Attribute 414 identisch
sind, die sowohl den Referenzrahmen-Tupelindex 414 und
den Testrahmen-Tupelindex 645i bilden. Zum Beispiel erzeugt
in dem Fall, in dem die Attribute geometrische (l1/l2/Θ2, wie oben)
und von der Atomart eines Platzes sind (AtomArt wie oben), das Tupel
A-B-E in 2A denselben Index ohne Rücksicht
auf die tatsächliche
chemische Art der Atome B und E, solange die Werte der Attribute,
die den Index bilden, identisch bleiben. Daher besitzt die Struktur 400 Informationen,
die beim Identifizieren eines oder mehrerer Moleküle aus der
Datenbank D nützlich
sind, die mit einem bestimmten Testmolekül übereinstimmen (siehe oben nach
einer Definition der 'Übereinstimmung') durch Bestimmen
der Häufigkeit
des Auftretens von impliziten oder expliziten Informationen, die
durch die Vektorinformationen 420 in einem oder mehreren
der Einträge 412A-412N wie
unten beschrieben gegeben sind.It should be noted, however, that there may be other molecules (or rigid substructures and / or parts of rigid substructures) in the database D that contain tuples, the reference frame tuple indices 414 which are the same as the test frame tuple indices 645i , This happens because the corresponding tuples regarding the chosen attributes 414 are identical to both the reference frame tuple index 414 and the test frame tuple index 645i form. For example, in the case where the attributes are geometric (l1 / l2 / Θ2, as above) and the atomic type of a place (AtomArt as above), the tuple ABE in 2A the same index, regardless of the actual chemical nature of atoms B and E, as long as the values of the attributes that make up the index remain identical. Therefore, the structure possesses 400 Information useful in identifying one or more molecules from database D that match a particular test molecule (see above for a definition of 'match') by determining the frequency of occurrence of implicit or explicit information by the vector information 420 in one or more of the entries 412A - 412N as described below.
Nachdem
die Vektorinformationen für
die rotierbaren Bindungen im Schritt 650 abgerufen werden, werden
die Vektorinformationen 420 für jeden Eintrag 412A-412N des
Datensatzes 425, auf die durch den Testrahmen-Tupelindex 645i zugegriffen
wird, benutzt, um die Position und Orientierung jedes dieser Vektoren 238,
die in jedem Eintrag 412A-412N in dem Datensatz 425 enthalten
sind, in dem globalen Koordinatenrahmen 235 wiederherzustellen.
Auf diese wiederhergestellten Instanzen des Vektors 238 kann
auch als auf Testvektoren in dieser Diskussion Bezug genommen werden.
Das Wiederherstellen wird erreicht durch Benutzen der Darstellungen
jedes Vektors 238, der in den Einträgen 412A-412N enthalten
ist, und durch Standardverfahren der Vektoranalyse; für jeden
Eintrag in jedem Datensatz mit einem Referenzrahmen-Tupelindex,
der mit dem Testrahmen-Tupelindex übereinstimmt, erzeugen wir
einen Abstimmungsdatensatz in einer Abstimmungsdatenstruktur 655,
wobei der Abstimmungsdatensatz Plazierungsinformationen in dem globalen
Koordinatenrahmen 235 für
jeden Vektor 238 enthält,
dessen Darstellung in den Einträgen 412A-412N enthalten ist.
Bei anderen alternativen bevorzugten Ausführungsbeispielen kann die Molekülidentität 421A-421N,
die Teilstruktur (210, 220)-Identität 422A-422N und/oder
die Teilstruktur (210, 220)-Identität 423A-423N zusätzlich zu
der abgerufenen Plazierungsinformation benutzt werden, wenn die
Abstimmungstabelle besiedelt wird.After the vector information for the rotatable bonds in step 650 be retrieved, the vector information 420 for every entry 412A - 412N of the record 425 pointed to by the test frame tuple index 645i is accessed, used to determine the position and orientation of each of these vectors 238 that in every entry 412A - 412N in the record 425 are included in the global coordinate frame 235 restore. On these recovered instances of the vector 238 can also be referred to as test vectors in this discussion. Restoration is achieved by using the representations of each vector 238 that in the entries 412A - 412N and by standard methods of vector analysis; for each entry in each record with a reference frame tuple index that matches the test frame tuple index, we generate a voting record in a voting data structure 655 wherein the voting record is placement information in the global coordinate frame 235 for every vector 238 contains, its representation in the entries 412A - 412N is included. In other alternative preferred embodiments, the molecule identity 421A - 421N , the substructure ( 210 . 220 )-Identity 422A - 422N and / or the substructure ( 210 . 220 )-Identity 423A - 423n in addition to the retrieved placement information when populating the reconciliation table.
Im
Schritt 660 wird jeder der Abstimmungsdatensätze, die
im Schritt 650 erzeugt wurden, in die Abstimmungstabelle
(siehe 700 unten) eingegeben. Es ist klar, daß Schritt 650 viele
identische Abstimmungsdatensätze
erzeugt, d.h. Abstimmungsdatensätze,
die die gleichen Plazierungsinformationen, Informationen bezüglich der
Molekülidentität und Informationen
bezüglich
der Teilstrukturidentität
enthalten. Dies ist das Ergbnis von mehr als einem der Rahmentupel,
die eine bestimmte Plazierung in dem globalen Koordinatenrahmen 235 für den Vektor 238 unterstützen, der
mit einer starren Teilstruktur eines bestimmten Moleküls verbunden
ist. Das Ausmaß der Übereinstimmung
zwischen einem Teil eines Testmoleküls und einem oder mehreren
der Teile einer oder mehrerer Teilstrukturen eines oder mehrerer
Moleküle
in der Datenbank D wird direkt zu der Vielfalt solcher identischen
Abstimmungsdatensätze
in Beziehung gesetzt oder äquivalent
zu der Häufigkeit
des Auftretens jedes bestimmten Abstimmungsdatensatzes in der Abstimmungstabelle 700.In step 660 each of the voting records that are in step 650 into the voting table (see 700 below). It is clear that step 650 generates many identical reconciliation records, ie reconciliation records that contain the same placement information, information about the molecular identity, and information about the substructure identity. This is the result of more than one of the frame tuples having a particular placement in the global coordinate frame 235 for the vector 238 support associated with a rigid substructure of a particular molecule. The degree of correspondence between a portion of a test molecule and one or more of the portions of one or more substructures of one or more molecules in the database D is directly related to the variety of such identical voting records or equivalent to the frequency of occurrence of each particular voting record in the database voting table 700 ,
Nachdem
einmal alle Abstimmungsdatensätze,
die unter Benutzen der Merkmale in den Einträgen 412A-412N der
Vektorinformationen 420 für den Datensatz 425,
auf den zugegriffen wurde, erzeugt wurden, in die Abstimmungstabelle
eingegeben wurden, bestimmt 665 der Prozeß 600,
ob es weitere zu erstellende 630 Tupel aus den Mitgliedern
der Referenztupel-Abstimmungsmenge 625 gibt. Wenn es weitere
zu erstellende 665 Tupel gibt, werden die Schritte 630, 635, 645, 650 und 655 wiederholt.
Wenn es keine zu erstellenden 665 Tupel mehr gibt, wird
das Testmolekül 650 geprüft 670,
um zu bestimmen, ob beide Teilstrukturen in dem ausgewählten 620 Paar
von Teilstrukturen (210, 220) verarbeitet wurden.
Die nichtverarbeitete Teilstruktur wird ausgewählt 620, und die Schritte 625, 630, 635, 645, 650 und 655 werden
wiederholt. Wenn beide Teilstrukturen des Paares verarbeitet wurden,
bestimmt der Prozeß 600,
ob es weitere Paare von Teilstrukturen (210, 220)
in dem ausgewählten
Molekül 605 gibt,
die durch rotierbare Bindungen 218 verbunden sind. Wenn
es weitere Paare von Teilstrukturen gibt, die durch rotierbare Bindungen
in dem Molekül
verbunden sind, wird der Prozeß wiederholt 672,
beginnend mit Schritt 615.Once all the voting records, using the features in the entries 412A - 412N the vector information 420 for the record 425 that were accessed, were entered in the reconciliation table, determined 665 the process 600 whether there are more to create 630 Tuples from the members of the reference tuple reconciliation set 625 gives. If there are more to create 665 Tuples are there, the steps become 630 . 635 . 645 . 650 and 655 repeated. If there is no one to create 665 Tuple gives more, the test molecule becomes 650 checked 670 to determine whether both subtrees are in the selected one 620 Pair of substructures ( 210 . 220 ) were processed. The unprocessed substructure is selected 620 , and the steps 625 . 630 . 635 . 645 . 650 and 655 are repeated. If both substructures of the pair have been processed, the process determines 600 whether there are more pairs of substructures ( 210 . 220 ) in the selected molecule 605 There are rotatable bonds 218 are connected. If there are other pairs of substructures linked by rotatable bonds in the molecule, the process is repeated 672 , starting with step 615 ,
Nachdem
das Verarbeiten des ausgewählten
Testmoleküls 605 beendet
ist, ist die Abstimmmungstabelle 700, die in 7 dargestellt
ist, durch Abstimmungsdatensätze 725 besiedelt
worden, die durch die Einträge
in die Datenstruktur 400 erzeugt wurden.After processing the selected test molecule 605 is finished, is the voting table 700 , in the 7 represented by voting records 725 settled by the one sluggish in the data structure 400 were generated.
Jeder
Datensatz 725 der Abstimmungstabelle hat eine Adresse 710 und
enthält
die Informationen über die
Identität
des Referenzmoleküls,
die Informationen über
die Identität
der starren Referenz-Teilstruktur und Plazierungsinformationen für jeden
Vektor 238, dessen Darstellungen in den Einträgen 412A-412N des
Datensatzes 425 enthalten sind, auf den durch den Testrahmen-Tupelindex 465i zugegriffen
wird.Every record 725 the voting table has an address 710 and contains information about the identity of the reference molecule, information about the identity of the rigid reference substructure, and placement information for each vector 238 , whose representations in the entries 412A - 412N of the record 425 on the test frame tuple index 465i is accessed.
Bei
einem bevorzugten Ausführungsbeispiel
werden die Molekülidentität 736 und/oder
die Identität 738 der
starren Teilstruktur 210 und/oder die Identität der starren
Teilstruktur 220 benutzt, um die Adresse 710 jedes
Abstimmungsdatensatzes zu errechnen. Die Adresse 710 wird
bestimmt durch das oben beschriebene 'Schritt'-Berechnungsverfahren. Bei einem alternativen,
bevorzugten Ausführungsbeispiel
können
die Plazierungsinformationen für
jeden Vektor 238, dessen Darstellungen in den Einträgen 412A-412N des
Datensatzes 425 enthalten sind, benutzt werden, um die
Adresse 710 des Datensatzes 725 abzuleiten.In a preferred embodiment, the molecule identity becomes 736 and / or the identity 738 the rigid substructure 210 and / or the identity of the rigid substructure 220 used to the address 710 to calculate each voting record. The address 710 is determined by the above-described 'step' calculation method. In an alternative preferred embodiment, the placement information for each vector 238 , whose representations in the entries 412A - 412N of the record 425 are included, used to address 710 of the record 725 derive.
Wir
kehren jetzt zur 6 zurück. Die
besiedelte Abstimmungstabelle 700 wird benutzt, um zu bestimmen:
(i) die Identität
von einem oder mehreren der Moleküle in der Datenbank D, (ii)
die Identität
einer oder mehrerer der starren Teilstrukturen in jedem Molekül und (iii)
die Position und Orientierung des Vektors 238, der jeder
starren Teilstruktur zugeordnet ist, so daß (a) eine starre Teilstruktur
in jedem solchen Molekül
der beste Kandidat für
die Übereinstimmung
mit einer Teilstruktur in dem Testmolekül ist und (b), wenn solch eine starre
Teilstruktur in dem globalen Koordinatenrahmen 235 plaziert
wird, so daß die
Position und Orientierung des zugehörigen Vektors 238 mit
demjenigen übereinstimmt,
der in (iii) bestimmt wurde, jedes identifizierte Molekül sich in
der besten Ausrichtung mit dem Testmolekül befindet. Beachte, daß es mehr
als ein Molekül
in der Datenbank D geben kann, die beste Kandidaten für eine Übereinstimmung
mit einer Teilstruktur in dem Testmolekül sind und, dies ist eine Folge
davon, daß eine
bestimmte Struktur des Testmoleküls
von mehr als einem der Moleküle
in der Datenbank D gemeinsam benutzt wird. Das Bestimmen dieser
Antworten (i), (ii) und (iii) kann durch Auswählen derjenigen Datensätze aus
der Abstimmungstabelle 700 mit einer Zählung (Häufigkeit) erfolgen, die einen
vorgegebenen Schwellwert 675 überschreitet. Diese ausgewählten Datensätze 725 stellen die
rekonstruierten Merkmale mit den Eigenschaften (a) und (b) oben
dar. Für
die Zwecke der hier beschriebenen Erfindung genügt es, die Identität des Moleküls (oder
der Moleküle)
in den Antworten zu berichten, die einen vorgegeben Schwellwert überschritten.We return now 6 back. The populated voting table 700 is used to determine: (i) the identity of one or more of the molecules in database D, (ii) the identity of one or more of the rigid substructures in each molecule, and (iii) the position and orientation of the vector 238 which is associated with each rigid substructure such that (a) a rigid substructure in each such molecule is the best candidate for conforming to a substructure in the test molecule, and (b) if such a rigid substructure is in the global coordinate frame 235 is placed so that the position and orientation of the associated vector 238 is identical to that determined in (iii), each identified molecule is in the best alignment with the test molecule. Note that there may be more than one molecule in the database D, which are the best candidates for matching a partial structure in the test molecule and, as a consequence of this, a particular structure of the test molecule of more than one of the molecules in the test molecule Database D is shared. Determining these responses (i), (ii) and (iii) may be accomplished by selecting those records from the reconciliation table 700 with a count (frequency) taking a predetermined threshold 675 exceeds. These selected records 725 represent the reconstructed features having properties (a) and (b) above. For purposes of the invention described herein, it is sufficient to report the identity of the molecule (or molecules) in the responses that exceeded a predetermined threshold.
Gelegentlich
kann es erwünscht
sein, diese aus der Tabelle 700 erhaltene Antworten, die
sich auf das gleiche Molekül
aus der Datenbank D beziehen, zu benutzen, um die Konformation des
Moleküls
zu bilden, die in Übereinstimmung
mit möglichst
vielen dieser Antworten ist. Wenn das fragliche Molekül in diese
Konformation gebracht wird, ist es in der bestmöglichen Ausrichtung mit dem
Testmolekül
als Ganzem. Die Qualität der
Ausrichtung zwischen zwei Molekülen
variiert als Funktion des tatsächlichen
Grades der Ähnlichkeit
zwischen ihnen, wenn alle diese Konformationen des identifizierten
Moleküls
in Betracht gezogen werden. Unglücklicherweise
macht die keinen Zwängen
unterliegende Art der Antworten, die aus der Tabelle 700 erhalten werden,
eine beträchtlich
Investition an Computerleistung nötig. Dieser Punkt ist bereits
oben in dem Paragraphen angesprochen worden, der den Unterschied
zwischen 'Identifizierung' und 'Erkennung' diskutiert.Occasionally, it may be desirable to remove these from the table 700 To use obtained responses relating to the same molecule from the database D, to form the conformation of the molecule that is in agreement with as many of these answers as possible. When the molecule in question is placed in this conformation, it is in the best possible alignment with the test molecule as a whole. The quality of alignment between two molecules varies as a function of the actual degree of similarity between them, taking into account all of these conformations of the identified molecule. Unfortunately, the unconstrained nature of the answers made in the table 700 A considerable investment in computer performance is needed. This point has already been raised in the paragraph above, which discusses the difference between 'identification' and 'recognition'.
Mit
dieser Offenbarung könnte
ein Fachmann äquivalente
alternative Ausführungsbeispiel
für die
Molekülidentifizierung
entwickeln, die ebenfalls innerhalb der Absicht der Erfinder liegen.With
this revelation could
a professional equivalent
alternative embodiment
for the
molecular identification
which are also within the intention of the inventors.