DE19646624B4 - Method and computer system for identifying conformationally elastic molecules - Google Patents

Method and computer system for identifying conformationally elastic molecules Download PDF

Info

Publication number
DE19646624B4
DE19646624B4 DE19646624A DE19646624A DE19646624B4 DE 19646624 B4 DE19646624 B4 DE 19646624B4 DE 19646624 A DE19646624 A DE 19646624A DE 19646624 A DE19646624 A DE 19646624A DE 19646624 B4 DE19646624 B4 DE 19646624B4
Authority
DE
Germany
Prior art keywords
test
vector
frame
rigid
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE19646624A
Other languages
German (de)
Other versions
DE19646624A1 (en
Inventor
Isidore Rigoutsos
Andrea Califano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE19646624A1 publication Critical patent/DE19646624A1/en
Application granted granted Critical
Publication of DE19646624B4 publication Critical patent/DE19646624B4/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Abstract

Verfahren zum Speichern einer Darstellung eines oder mehrerer Referenzmoleküle in einem Speicher eines Computersystems, um in einem anderen Verfahren strukturelle Ähnlichkeiten mit einem Testmolekül und Eigenschaften des Testmoleküls vorhersagen zu können, wobei das Verfahren zum Speichern auf einem Computersystem ausgeführt wird und die Schritte umfaßt des:
a. Identifizierens entweder einer oder mehrerer starrer Teilstrukturen des Referenzmoleküls, wobei jede der starren Teilstrukturen einen oder mehrere Atomplätze aufweist, jeder der Atomplätze mit keinem oder mehreren Atomplätzen in der starren Teilstruktur durch eine nichtrotierbare Bindung verbunden ist, wobei jede starre Teilstruktur eine globale Position und eine globale Orientierung in einem globalen Koordinatenrahmen aufweist;
b. Definierens eines Vektors mit einer Größe und Richtung mit einer festen Position und Orientierung hinsichtlich der starren Teilstruktur;
c. Auswählens einer Menge von drei oder mehr Plätzen, wobei der Satz von Plätzen ein Rahmentupel bildet, zumindest einer der Plätze nichtkollinear mit den restlichen Plätzen ist, die...
A method of storing a representation of one or more reference molecules in a memory of a computer system to predict structural similarities with a test molecule and properties of the test molecule in another method, the method being performed for storage on a computer system and comprising the steps of:
a. Identifying either one or more rigid substructures of the reference molecule, each of the rigid substructures having one or more atomic sites, each of the atomic sites being connected to one or more atoms in the rigid substructure by a nonrotatable bond, each rigid substructure being a global position and a global one Having orientation in a global coordinate frame;
b. Defining a vector having a magnitude and direction with a fixed position and orientation with respect to the rigid substructure;
c. Selecting a set of three or more squares, where the set of squares forms a frame tuple, at least one of the squares is non-collinear with the remaining squares, the ...

Figure 00000001
Figure 00000001

Description

1.0 GEBIET DER ERFINDUNG1.0 FIELD OF THE INVENTION

Diese Erfindung bezieht sich auf das Gebiet der rechenbetonten Biologie. Genauer bezieht sich die Erfindung auf ein Computersystem und ein Verfahren zum Erkennen derjenigen Moleküle in einer Datenbank mit einem oder mehreren Molekülen, die Teilstrukturen gemeinsam mit einem oder mehreren Testmolekülen enthalten, selbst wenn die Moleküle in der Datenbank Atomgruppen enthalten, die die Freiheit haben, um irgendwelche kovalenten Bindungen zu rotieren, die in solchen Molekülen vorhanden sein können (Torsionselastizität).These This invention relates to the field of computational biology. More particularly, the invention relates to a computer system and a Method for detecting those molecules in a database with a or more molecules, contain the partial structures together with one or more test molecules, even if the molecules contain in the database atomic groups that have the freedom to rotate any covalent bonds in those molecules can be present (Torsional).

2.0 HINTERGRUND DER ERFINDUNG2.0 BACKGROUND THE INVENTION

Da der Inhalt vorhandener Informationsspeicher schneller verarbeitet werden muss und eine größere Vielfalt von Werkzeugen verfügbar wird, spielt der Computer eine zunehmend wichtigere Rolle beim Führen und Verbessern des Prozesses zum Auffinden und Entwerfen von Arzneimitteln.There the content of existing information stores is processed faster must be and a greater variety available from tools the computer plays an increasingly important role in guiding and Improve the process of finding and designing medicines.

Einer der grundlegenden Bestandteile der gegenwärtigen Annäherungen an diese Linie der Forschungsbemühungen ist der Wunsch gewesen, Moleküleigenschaften zu berechnen, zu katalogisieren und zu suchen, die in den höchst grundlegenden Ebenen der Arzneimittel-Wechselwirkungen eingeschlossen sind.one the basic components of current approaches to this line of research efforts has been the desire, molecular properties to calculate, catalog and search in the most basic Levels of drug interactions are included.

Speziell können Computer den Forschern helfen, unwahrscheinliche Kandidaten von vornherein rasch zu eliminieren, wodurch lange und teure Aktivitätsüberprüfungen vermieden werden. Wichtiger noch, sie können es den Forschern erlauben, neue, vielversprechende Verbindungen zu identifizieren, basierend nur auf den verfügbaren Informationen über den Rezeptorplatz oder über andere Leitverbindungen.specially can Computers help researchers find unlikely candidates rapidly eliminated, thereby avoiding long and expensive activity checks become. More importantly, they can allow researchers to make new, promising connections to identify, based only on the available information about the Receptor place or over other routing connections.

Dadurch, daß man in der Lage ist, diese Aufgaben schnell durchzuführen und Informationen wiederzugewinnen, die unmittelbar in die Formulierung der Suchstrategie für das Arzneimittel eingegliedert werden können, erwartet man, daß diese komplexe, multidisziplinäre Bemühung stark vereinfacht wird und die Geschwindigkeit bedeutend erhöht wird, mit der neue und wirkungsvollere Arzneimittel identifiziert, getestet und auf den Markt gebracht werden.Thereby, that he is able to perform these tasks quickly and regain information, directly in the formulation of the search strategy for the drug can be integrated one expects these complex, multidisciplinary effort is greatly simplified and the speed is significantly increased, identified with the new and more effective drugs, tested and put on the market.

Bis heute sind Hunderte von Proteinstrukturen mittels Röntgenstrahlkristallographie und Verfahren der magnetischen Kernresonanzspektroskopie, abgekürzt als (NMR = nuclear magnetic resonance) bestimmt worden. Diese Daten sind als eine öffentliche Quelle für Daten von Molekülstrukturen leicht verfügbar und gestatten es Pharmakologen und Biologen, die verschiedenen Aspekte der Proteinstrukturen und ihres komplizierten Verhaltens zu erforschen. Zusätzlich zu diesen öffentlichen Datenbanken ist eine Anzahl anderer (öffentlicher und privater) Datenbanken über kleine organische Moleküle durch die Bemühungen zahlreicher pharmazeutischer und biotechnologischer Firmen und Forschungsorganisationen bereitgestellt worden.To Today, hundreds of protein structures are by X-ray crystallography and methods of nuclear magnetic resonance spectroscopy, abbreviated as (NMR = nuclear magnetic resonance) has been determined. These dates are considered a public Source for Data from molecular structures easily available and allow pharmacologists and biologists, the different aspects of protein structures and their complicated behavior. additionally to these public Databases is a set of other (public and private) databases about small ones organic molecules through the efforts numerous pharmaceutical and biotechnology companies and research organizations been provided.

Es gibt mehrere unterschiedliche Szenarien, denen man bei dem Prozeß des Arzneimittelentwurfs wahrscheinlich begegnet.

  • 1. Es wird ein pharmakophores Modell aus verschiedenen aktiven Molekülen vorgeschlagen; man wünscht andere Moleküle zu finden, die entweder die pharmakophore Hypothese unterstützen oder widerlegen.
  • 2. Eine Anzahl ungeprüfter Moleküle kann eine biologische Aktivität aufweisen; man wünscht vorhandene Beziehungen zwischen der dreidimensionalen Struktur und der Aktivität auszunutzen, um möglicherweise vorhandene biologische Eigenschaften abzuleiten.
  • 3. Eine bestimmte Konformation eines vorgegebenen Liganden ist als biologisch aktiv vorgeschlagen worden; es wird angenommen, daß eine dreidimensionale Suche andere Moleküle identifiziert, die dem Liganden gleichen. Siehe dazu etwa John H. van Drie, David Weininger, Yvonne C. Martin: „Aladddin: An integrated tool for computer-assisted molecular design and pharmacophore recognition from geometric, steric, and substructure searching of three-dimensional molecular structures", Journal of Computer-Aided Molecular Design, 1989, Vol. 3, Seiten 225-251.
  • 4. Die dreidimensionale Struktur eines Protein- oder DNA-Bindungsplatzes ist über kristallographische Studien verfügbar. Liganden, die in den Bindungsplatz passen, werden in diesem Fall gesucht. Die Suche kann durch Benutzen von Informationen über das elektrostatische Verhalten für einige der Atomgruppen an dem Platz gesteigert werden. Dieses Verfahren wurde erfolgreich bei verschiedenen pharmazeutischen Firmen, wie z.B. Merck, American Cyanamid, Agouron usw. angewandt, um Liganden zu entwerfen, die das komplementäre Transkriptase-Enzym von HIV binden und unterdrücken.
There are several different scenarios that are likely to be encountered in the drug design process.
  • 1. A pharmacophore model of various active molecules is proposed; one wishes to find other molecules that either support or disprove the pharmacophore hypothesis.
  • 2. A number of unchecked molecules may have biological activity; one desires to exploit existing relationships between the three-dimensional structure and the activity to derive possibly existing biological properties.
  • 3. A particular conformation of a given ligand has been proposed to be biologically active; It is believed that a three-dimensional search identifies other molecules that resemble the ligand. See, for example, John H. van Drie, David Weininger, Yvonne C. Martin: "Aladddin: An integrated tool for computer-assisted molecular design and pharmacophore recognition from geometric, steric, and substructure searching of three-dimensional molecular structures", Journal of Computer-Aided Molecular Design, 1989, Vol. 3, pp. 225-251.
  • 4. The three-dimensional structure of a protein or DNA binding site is available via crystallographic studies. Ligands that fit into the binding site are searched in this case. The search can be enhanced by using information about the electrostatic behavior for some of the atomic groups in place. This method has been successfully applied to various pharmaceutical companies such as Merck, American Cyanamid, Agouron, etc., to design ligands that bind and suppress the HIV complementary transcriptase enzyme.

In jedem dieser Fälle müssen die kritischen Informationen, die die Forscher in die Lage versetzen, Hypothesen zu entwickeln, die möglicherweise neue Molekülkandidaten für die Synthese und das Testen betreffen, durch eine Suche in einer möglicherweise sehr großen Datenbank mit relevanten Informationen wiedergewonnen werden. In der Tat ist das zugrundeliegende gemeinsame Element für verschiedene Stufen medizinisch-chemischer Untersuchungen die Notwendigkeit, Datenbanken mit chemischen Informationen zu durchsuchen. Das Folgende konzentriert sich auf den Fall, in dem die zu durchsuchenden Datenbanken Strukturinformationen enthalten, die sich auf dreidimensionale Atomverbindungen beziehen.In each of these cases have to the critical information that enables researchers to Hypotheses that may develop new molecular candidates for the Concerning synthesis and testing, you might search through one very big Database with relevant information to be recovered. In In fact, the underlying common element is different Stages of medical-chemical investigations the need to Search databases with chemical information. The following focuses on the case in which the databases to be searched Structure information contained, referring to three-dimensional atomic connections Respectively.

Typischerweise ist eine Verbindung/ein Molekül C in der Form einer Menge von Koordinaten der Atomplätze der Verbindung gegeben. Ebenfalls ist eine Datenbank D gegeben, d.h. eine Sammlung von Mengen Dj = {...}. Dj = {...} ist eine Sammlung von Mengen von Koordinaten der Atomplätze für jedes der Mitgliedermoleküle. Das Verbinden der verschiedenen Atomplätze in sowohl C als auch den Mitgliedern in der Datenbank sind Bindungen, von denen einige rotierbar sein können und daher eine Torsionselastizität ermöglichen. Torsionselastizität bedeutet, daß die Atomgruppen, die an den zwei Endpunkten einer (rotierbaren) Bindung starr befestigt sind, im Hinblick aufeinander rotieren können. Jede Verbindung/jedes Molekül kann mehr als eine rotierbare Bindung enthalten, und daher kann die Verbindung/das Molekül jede einer unbegrenzten Anzahl von Konformationen (dreidimensionalen Konfigurationen) mittels Rotationen um diese Bindungen annehmen. Gelegentlich können sterische Zwänge oder Energiebetrachtungen die Anzahl der Wahlmöglichkeiten begrenzen, aber die Mächtigkeit der Menge möglicher Konfigurationen bleibt trotzdem unbegrenzt. Diese Elastizität hinsichtlich der Konformation von Molekülstrukturen eröffnet einen weiten Bereich von Möglichkeiten in der Frage möglicher Liganden, während sie zur gleichen Zeit das Problem exponentiell schwieriger macht. Zusätzlich zu der (internen) Torsionselastizität können die Moleküle starre Transformationen im dreidimensionalen Raum eingehen, d.h., das Molekül kann als Ganzes rotieren und sich fortbewegen. Im folgenden wird auf die Verbindung/das Molekül C austauschbar Bezug genommen als 'Testverbindung' oder 'Testmolekül' oder 'Abfrageverbindung' oder 'Abfragemolekül'.Typically, a compound / molecule C is in the form of a set of coordinates of the atomic sites of the compound. There is also a database D, ie a collection of sets D j = {...}. D j = {...} is a collection of sets of atomic site coordinates for each of the member molecules. The joining of the various atomic sites in both C and the members in the database are bonds, some of which may be rotatable and therefore provide torsional elasticity. Torsional elasticity means that the groups of atoms rigidly attached to the two endpoints of a (rotatable) bond can rotate with respect to each other. Each compound / molecule may contain more than one rotatable bond and, therefore, the compound / molecule may adopt any of an infinite number of conformations (three-dimensional configurations) via rotations about these bonds. Occasionally, steric constraints or energy considerations may limit the number of choices, but the power of the set of possible configurations remains unlimited. This elasticity with respect to the conformation of molecular structures opens up a wide range of possibilities in the question of possible ligands, while at the same time making the problem exponentially more difficult. In addition to the (internal) torsional elasticity, the molecules can undergo rigid transformations in three-dimensional space, ie, the molecule can rotate and travel as a whole. Hereinafter, the compound / molecule C is interchangeably referred to as a 'test compound' or 'test molecule' or 'query compound' or 'query molecule'.

Bei einer gegebenen Verbindung C und einer Datenbank D, die Informationen über die 3-dimensionale Struktur einer möglicherweise großen Menge von Molekülen enthält, müssen die folgenden Vorgänge definiert und ausgeführt werden:

  • 1. "Struktureinfügung": die Fähigkeit, alles verfügbare Strukturwissen über die Verbindung C in die Datenbank D einzugliedern;
  • 2. "Strukturmitgliedschaft": Bestimmung, ob die Verbindung C bereits in der Datenbank D inbegriffen ist;
  • 3. "Teilstruktursuche": identifiziere und melde alle die Verbindungen der Mitglieder von D, die eine bestimmte Teilstruktur der Verbindung C enthalten;
  • 4. "Ähnlichkeitssuche": identifiziere und melde alle die Verbindungen der Mitglieder von D, die der Verbindung C ähnlich sind. Um solch eine Operation auf der Datenbank D zu implementieren, muß ein Ähnlichkeitsmaß d(.,.) definiert und verfügbar sein, und
  • 5. "Überstruktursuche": identifiziere und melde alle die Verbindungen der Mitglieder von D, die eine Teilstruktur der Verbindung C sind.
For a given compound C and a database D containing information about the 3-dimensional structure of a potentially large set of molecules, the following operations must be defined and executed:
  • 1. "structural insertion": the ability to integrate all available structural knowledge into database D via compound C;
  • 2. "Structural membership": determining whether the connection C is already included in the database D;
  • 3. "partial structure search": identify and report all the compounds of the members of D that contain a particular sub-structure of compound C;
  • 4. "Similarity search": identify and report all the compounds of members of D that are similar to compound C. In order to implement such an operation on the database D, a similarity measure d (.,.) Must be defined and available, and
  • 5. "structure search": identify and report all the compounds of the members of D which are a substructure of compound C.

Vor allem ist es leicht zu sehen, daß das Prädikat der Strukturmitgliedschaft durch den Vorgang der Teilstruktursuche subsumiert wird. Darüberhinaus können alle der Suchvorgänge auf das reduziert werden, auf das wir als "Teilstrukturähnlichkeit" Bezug nehmen werden.In front In particular, it is easy to see that the predicate of structural membership is subsumed by the process of partial structure search. Furthermore can all of the searches reduced to that which we will refer to as "partial structure similarity".

Im Folgenden wird der Ausdruck Teilstrukturähnlichkeit benutzt, um auf einen einzelnen Vorgang Bezug zu nehmen, der, wenn eine Verbindung C, eine Datenbank D und ein Ähnlichkeitsmaß d(.,.) gegeben sind, die Bestimmung all der Verbindungsmitglieder in D erlaubt, die eine Teilstruktur enthalten, die ähnlich der Teilstruktur von C ist. Das Ausmaß der Ähnlichkeit zwischen den in Frage stehenden Molekülen kann durch die Funktion d(.,.) bestimmt werden. Die Auffassung hier ist, daß die implizierte gemeinsame Teilstruktur nicht notwendigerweise eine korrekte Teilmenge von C sein muß. Die Ähnlichkeitsfunktion d(.,.) bleibt unspezifiziert, aber wir nehmen an, daß sie von einer sehr allgemeinen Art ist.in the Hereinafter, the term partial structure similarity is used to refer to to refer to a single operation when a connection C, a database D and a similarity measure d (.,. given, the determination of all the connection members in D which contain a substructure similar to the substructure of C is. The extent of similarity between the molecules in question can by the function d (.,.) are determined. The view here is that the implied common Substructure does not necessarily have a correct subset of C must be. The similarity function d (.,.) remains unspecified, but we assume that it is from a very general kind.

Es kann gezeigt werden, daß das Problem der Teilstrukturübereinstimmung NP-vollständig ist durch Beachten, daß es das Problem des Teilgraphen-Isomorphismus als Spezialfall einschließt. Die Implikation der realen Welt dieser Feststellung besteht darin, daß die Zeitkomplexität für das Auffinden aller optimalen Lösungen eine Expotentialfunktion der Länge der Eingabe ist und daher kein wirksamer Algorithmus (,d.h. einer mit polynomischer Zeitkomplexität,) existiert, um die optimalen Lösungen zu finden. Die rechenbetonte Kompliziertheit des Problems wird weiter zusammengesetzt durch das Zulassen von Torsionselastizität um die kovalenten Bindungen des Moleküls herum.It can be shown that the Problem of substructure match NP-complete is by observing that it includes the problem of subgraph isomorphism as a special case. The The implication of the real world of this finding is that the time complexity for finding all optimal solutions an expotential function of length is not an effective algorithm (i.e., a with polynomial time complexity,) exists to the optimal solutions to find. The computational complexity of the problem continues composed by allowing torsional elasticity around the covalent bonds of the molecule around.

Vor dem Beenden dieses Abschnittes sollte eine entscheidende Unterscheidung beachtet werden. Dies ist die Unterscheidung zwischen 'Identifizierung' und 'Erkennung' derjenigen der Moleküle in der Datenbank D, die der vorgegebenen Testverbindung/dem Molekül ähnlich C sind. Identifizierung beschränkt sich selbst auf das Melden nur der Identitäten der Moleküle in der Datenbank D, die mit der Testverbindung/dem Molekül C übereinstimmen. Auf der anderen Seite zieht die Erkennung nicht nur das Melden der Identitäten der übereinstimmenden Moleküle nach sich, sondern auch die Bestimmung und das Melden der notwendigen Transformationen, die jedes der identifizierten, übereinstimmenden Moleküle in die "beste Ausrichtung" mit der Testverbindung/dem Testmolekül bringt. ("Beste Ausrichtung" positioniert die Atomplätze des Testmoleküls und der übereinstimmenden Moleküle in der Datenbank in solch einer Weise, daß die Anzahl der Stellen in dem dreidimensionalen Raum, die gleichzeitig durch die Atome des Testmoleküls und die Atome jedes der übereinstimmenden Moleküle besetzt werden, die maximal mögliche ist). Diese "notwendigen" Transformationen schließen Rotationen und Translationen der betrachteten Moleküle als Ganze ein, aber auch Rotationen von Strukturen innerhalb der Moleküle rund um die torsionselastischen Bindungen der Moleküle herum.In front Ending this section should be a crucial distinction get noticed. This is the distinction between 'identification' and 'recognition' of those of the molecules in the Database D corresponding to the given test compound / molecule similar to C are. Identification limited itself on reporting only the identities of the molecules in the Database D corresponding to the test compound / molecule C. On the other hand, detection does not just involve reporting the Identities of the matching molecules in itself, but also the determination and reporting of the necessary transformations, each one of the identified, matching ones molecules in the "best orientation" with the test compound / the test molecule brings. ("Best Orientation "positioned the atomic places of the test molecule and the matching one molecules in the database in such a way that the number of digits in the three-dimensional space, simultaneously through the atoms of the test molecule and the Atoms each of the matching molecules be occupied, the maximum possible is). These "necessary" transformations shut down Rotations and translations of the considered molecules as a whole one, but also rotations of structures within the molecules around around the torsional elastic bonds of the molecules around.

Erkennung ist beweisbar ein viel schwierigeres Problem als Identifizierung; dies ist besonders offensichtlich in dem Fall sehr großer Datenbanken D mit Molekülen, die torsionselastisch sind. Dies kommt vor, weil die Anzahl der möglichen Transformationen exponentiell mit der Anzahl der rotierbaren Bindungen anwächst, die die gezeigte Torsionselastizität zulassen: die rechenbetonten Gesichtspunkte für das Finden und Melden der richtigen Transformation nehmen allgemein mit der Anzahl der Transformationen zu.recognition is provably a much more difficult problem than identification; this is especially evident in the case of very large databases D with molecules, which are torsionally elastic. This happens because the number of potential Transformations exponentially with the number of rotatable bonds increases, which allow the torsional elasticity shown: the computational stress Points of view for Finding and reporting the right transformation generally take with the number of transformations too.

3.0 PROBLEME MIT DEM STAND DER TECHNIK3.0 PROBLEMS WITH THE STAND OF THE TECHNIQUE

Die inhärente rechenbetonte Kompliziertheit der Aufgabe der Teilstrukturähnlichkeit hat typischerweise alle die früher vorgeschlagenen Lösungswege für das Anpacken dieses Problems heimgesucht. Selbst wenn man das Problem auf den Fall starrer Moleküle mit keinen rotierbaren Bindungen beschränkt, bleibt das Problem hinsichtlich der Rechenbetontheit wegen seiner dreidimensionalen Natur sehr anspruchsvoll.The inherent computational complexity of the task of substructure similarity typically has all the earlier proposed solutions for the Tackling this problem. Even if you have the problem to the case of rigid molecules with no rotatable bonds, the problem remains The computing power is very demanding because of its three-dimensional nature.

Um die Kompliziertheit der Aufgabe abzuschätzen, wird ein eindimensionales Analogon aus dem täglichen Leben dargestellt. Wenn ein Regal voll von Büchern und ein Satz wie der
"Bilden von 3D-Abfragen, die sich einer bestimmten Elastizität in den Zielstrukturen anpassen können,"
gegeben ist, wird eine Suchaufgabe als die Notwendigkeit definiert, jedes Auftreten ähnlicher Sätze in der Menge der verfügbaren Bücher zu finden. Ähnlich bedeutet in dem allgemeinsten Fall, daß ein Satz wie
"wir bilden eine 3D-Suchabfrage so, daß sie sich der gewünschten Elastizität anpaßt"
als eine gültige Übereinstimmung gemeldet werden sollte. Mit anderen Worten sind Vorgänge wie Ersetzen, Einfügen und Löschen der grundlegendsten Informationselemente (in diesem Fall der Buchstaben) legitim und daher zulässig. (In dem Fall von Molekülen sind die grundlegendsten Informationselemente die Atome eines Moleküls.)
To estimate the complexity of the task, a one-dimensional analogue from everyday life is presented. If a shelf full of books and a sentence like that
"Forming 3D queries that can adapt to a certain elasticity in the target structures,"
Given, a search task is defined as the need to find each occurrence of similar sentences in the set of available books. Similarly, in the most general case, a phrase like
"we create a 3D search query that adapts to the desired elasticity"
should be reported as a valid match. In other words, operations such as replacing, inserting, and deleting the most basic information elements (letters in this case) are legitimate and therefore permissible. (In the case of molecules, the most basic information elements are the atoms of a molecule.)

Ein direkter Weg zum Lösen dieser Aufgabe hat das Abtasten des Inhaltes all der Bücher auf dem Regal in einer erschöpfenden, linearen Weise zur Folge, d.h. von links nach rechts, von oben nach unten, um alle ähnlichen (in diesem Fall eindimensionalen) Strukturen zu lokalisieren. Es ist klar, daß solch eine Betriebsweise zunehmend mehr Zeit erfordert, wenn die Anzahl der Bücher in dem Regal (d.h. die Größe der Datenbank) zunimmt.One direct way to solve this task is the scanning of the contents of all the books the shelf in an exhaustive, linear manner, i. from left to right, from top to bottom down to all the similar ones (in this case one-dimensional) structures to locate. It it is clear that such An operation increasingly requires more time when the number the books on the shelf (i.e., the size of the database) increases.

Natürlich kann eine Anzahl heuristischer Verfahren das Finden der Antwort erleichtern. Zum Beispiel können bestimmte Operationen nicht erlaubt sein oder die Suche würde auf eine kleinere, gut spezifizierte Menge beschränkt; dieses beschränkt unmittelbar die Anzahl der möglichen Varianten für einen gegebenen Satz und macht das Vorausberechnen und Speichern alternativer Sätze plausibel. Beim Suchen wird der Testsatz mit der Menge aller zulässigen vorherberechneten Varianten verglichen.Of course you can a number of heuristic procedures facilitate finding the answer. For example, you can Certain operations may not be allowed or the search would be on a smaller, well-specified quantity limited; this limits immediately the number of possible Variants for a given sentence and does the prediction and saving alternative sentences plausible. When searching, the test set will be precalculated with the set of all allowed Variants compared.

Alternativ können "Schlüssel" unter Benutzung einer Teilmenge von Wörtern innerhalb eines Fensters von vorgegebener Breite vorausberechnet und gespeichert werden. Wenn sie mit einer Abfrage dargeboten werden, berechnet das System die Menge von Schlüsseln für die Abfrage und benutzt sie, um die Menge von Schlüsseln zu suchen und zu finden, die für alle die Sätze in all den Büchern berechnet wurden. Mit anderen Worten, anstatt die Sätze direkt miteinander zu vergleichen, werden ihre "Stellvertreter" stattdessen verglichen, wieder in linearer Weise.alternative can use "keys" under usage a subset of words predicted within a window of predetermined width and saved. When presented with a query, the system calculates the set of keys for the query and uses them around the amount of keys to search and find that for all the sentences in all the books were calculated. In other words, rather than the sentences directly compared to each other, their "proxies" are compared instead, again in linear Wise.

Eine zu der obigen Suchaufgabe nach einem ähnlichen Satz analoge Situation ist in dem Fall des Suchens nach ähnlichen Strukturen in Datenbanken mit dreidimensionalen Molekülinformationen vorhanden. Die folgende Darstellung typischer Verfahren hat die Absicht, dazu zu verhelfen, die Gemeinsamkeiten und Unterschiede früher vorgeschlagener Lösungen zu identifizieren.A situation analogous to the above search task for a similar set is present in the case of searching for similar structures in databases with three-dimensional molecular information. The following description of typical procedures is intended to help you understand the similarities and sub-topics to identify differences of previously proposed solutions.

Die verschiedenen Verfahren, die über die Jahre für das Suchen in Datenbanken für dreidimensionale Moleküle vorgeschlagen wurden, unterscheiden sich grundlegend in ihrer Definition und ihrer Benutzung des Ähnlichkeitsmaßes d(.,.), das oben eingeführt wurde. Wenn eine Testverbindung C und eine Datenbank D gegeben sind, bewertet das Ähnlichkeitsmaß d(.,.) das Ausmaß, in dem C und ein gegebenes Mitglied von D ähnlich sind. Die durch Vergleichen von C mit jedem der Mitgliedermoleküle in D erzeugten Werte erzeugen ein "Testergebnis", das nachfolgend dazu benutzt werden kann, um die Kandidatenantworten in der Reihenfolge abnehmender Qualität zu ordnen.The different procedures over the years for searching in databases for three-dimensional molecules are fundamentally different in their definition and their use of the similarity measure d (.,.), that introduced above has been. If a test connection C and a database D are given, evaluates the similarity measure d (.,.) the extent, where C and a given member of D are similar. The by comparison generate values generated by C with each of the member molecules in D. a "test result" below can be used to reduce the candidate responses in order of decreasing quality assign.

Zum Beispiel wird bei dem "Atom-Abbildungs"verfahren der Tanimoto-Koeffizient unter Benutzung des Ergebnisses der paarweisen Vergleiche der Zeilen der Abstandsmatrizen zweier Moleküle berechnet. Dieser Koeffizient wird als Eingabe in eine intermolekulare Ähnlichkeitsmatrix benutzt. Diese Matrix wird in Verbindung mit einem gefräßigen Algorithmus benutzt, um den Grad der Ähnlichkeit zwischen den beiden Molekülen zu bestimmen. Die Berechnung wird für alle Kombinationen zwischen einem Abfragemolekül C und jedem der Moleküle in der Datenbank D wiederholt. Wie das der Fall bei gefräßigen Algorithmen ist, sind keine Garantien dafür vorhanden, daß der Algorithmus alle die richtigen Lösungen findet. Die Lösung ist sehr rechenintensiv und steht in keinem guten Verhältnis zur Größe der Datenbank.To the For example, in the "atomic imaging" method, the Tanimoto coefficient using the result of the pairwise comparisons of the rows calculated from the distance matrices of two molecules. This coefficient is used as input to an intermolecular similarity matrix. This matrix is used in conjunction with a gluttonous algorithm about the degree of similarity between the two molecules to determine. The calculation is made for all combinations between a query molecule C and each of the molecules repeated in the database D. As is the case with gluttonous algorithms is no guarantees present that the Algorithm all the right solutions place. The solution is very computationally intensive and is in no good relation to Size of the database.

Bei dem "Cliquenbestimmungs"-Verfahren wird eine Anzahl verschiedener Orientierungen für jedes der Moleküle in der Datenbank erzeugt, bevor der Vergleich mit dem Abfragemolekül C vorgenommen wird. Jede der Orientierungen wird dann mit C überlagert und basierend auf dem Vorhandensein oder Fehlen von Atomen in der Datenbank in der Nachbarschaft eines Atomes von C eingestuft. Alle der Orientierungen, die zu einer Einstufung kleiner als die maximale führen, werden verworfen. Die Suche geht dann mit dem nächsten Molekül in der Datenbank weiter. An jedem Punkt werden während der Suche die letzten n besten Punktzahlen zurückbehalten. Dieses Verfahren ist das Herz des Mosaiksystems zur Molekülmodellierung.at the "clique determination" method becomes a Number of different orientations for each of the molecules in the Database created before the comparison with the query molecule C made becomes. Each of the orientations is then overlaid with C and based on the presence or absence of atoms in the database in the Neighborhood of an atom of C classified. All of the orientations, which will lead to a rating less than the maximum discarded. The search then goes to the next molecule in the Database continues. At any point during the search, the last n best scores retained. This procedure is the heart of the mosaic system for molecular modeling.

Bei anderen Verfahren nach dem Stand der Technik werden die Molekülstrukturen als Verbindungstabellen dargestellt und daher als Graphen betrachtet. Die Scheitel jedes solchen Graphen entsprechen den Atomplätzen des Moleküls. Wenn eine Bindung zwischen zwei gegebenen Atomplätzen vorhanden ist, dann hat der entsprechende Graph eine Kante, die die relevanten Knoten verbindet. Wenn jedes Molekül der Datenbank D durch einen Graphen dargestellt wird, kann man eine Suche nach ähnlichen Teilstrukturen unter Verwendung eines Algorithmus für Teilgraphen-Isomorphismus durchführen. Wie wir bereits oben erwähnt haben, ist das Problem des Teilgraphen-Isomorphismus NP-vollständig, und daher ist kein wirksamer Algorithmus vorhanden. Eine neuere Arbeit verglich eine Anzahl verschiedener Algorithmen für den Teilgraphen-Isomorphismus und lieferte den Beweis für die Nützlichkeit eines Suchalgorithmus, der durch das heuristische Verfahren der "Reinigungsprozedur" verbessert wurde. Graphentheoretische Ergebnisse werden auch benutzt, um Ähnlichkeitsfunktionen für das Vergleichen von Molekülfragmenten (Teilstrukturen) zu entwickeln.at Other methods of the prior art are the molecular structures represented as connection tables and therefore considered as graphs. The vertices of each such graph correspond to the Atoms of the Molecule. If there is a bond between two given atoms, then the corresponding graph is an edge connecting the relevant nodes. If every molecule The database D is represented by a graph, you can have a Looking for similar Substructures using a subgraph isomorphism algorithm carry out. As we mentioned above The problem of the subgraph isomorphism is NP-complete, and therefore there is no effective algorithm. A newer work compared a number of different algorithms for the subgraph isomorphism and provided the proof for the usefulness a search algorithm improved by the heuristic "cleaning procedure" procedure. Graph theoretic results are also used to simulate similarity functions for the Comparing molecular fragments (Substructures) to develop.

Eine Variation des obigen Schemas beginnt mit dem Gruppieren all der Moleküle in der Datenbank D in verschiedene Gruppen. In diesem Fall wird das Ähnlichkeitsmaß d(.,.) zuerst benutzt, um die intermolekularen Ähnlichkeiten für alle die Paare zu berechnen, die durch die Moleküle in D gebildet werden können. Anschließend wird ein Gruppierungsschritt benutzt, um die verschiedenen Moleküle aufgrund der Werte, die durch die paarweisen Vergleiche erzeugt wurden, in Gruppen zu gruppieren. Wenn sie mit einem Abfragemolekül C dargeboten wird, klassifiziert diese Lösung C durch Identifizieren der Gruppe, zu der C gehört. Die Moleküle in der Datenbank D, die am besten mit dem Afragemolekül C übereinstimmen, werden aus dieser Gruppe wie auch aus der (den) benachbarten Gruppe(n) herausgezogen.A Variation of the above scheme starts with grouping all of them molecules in the database D in different groups. In this case will the similarity measure d (.,.) First, it uses the intermolecular similarities for all the Calculate pairs that can be formed by the molecules in D. Subsequently, will a grouping step used to different the molecules due of the values generated by the pairwise comparisons in Group groups. When presented with a query molecule C will classify this solution C by identifying the group to which C belongs. The molecules in the Database D, which most closely matches the Afragemolekül C, are from this Group as well as from the neighboring group (s) pulled out.

Bis jetzt wurde die Annahme gemacht, daß die zu betrachtenden Moleküle starre, dreidimensionale Strukturen sind. Aber meistens ist dies nicht der Fall. Gewöhnlich besitzen Moleküle verschiedene interne, rotierbare Bindungen und sind daher in der Lage, ein Kontinuum von Konformationen, d.h. dreidimensionalen Konfigurationen, anzunehmen. Gelegentlich können sterische Zwänge oder Energiebetrachtungen die Anzahl der Wahlmöglichkeiten begrenzen.To now it was assumed that the molecules to be considered were rigid, are three-dimensional structures. But most of the time this is not the case Case. Usually own molecules different internal, rotatable bonds and are therefore in the Able, a continuum of conformations, i. three-dimensional configurations, to accept. Occasionally steric constraints or energy considerations limit the number of choices.

Das Behandeln der Moleküle in einer Datenbank als starr erleichtert die Suche in 3D-Datenbanken auf Kosten des Verwerfens großer Zahlen von gültigen Kandidaten: obgleich die gespeicherte Konformation eines Moleküls nicht das betrachtete pharmakophore Muster/Modell zeigen mag, kann eine unterschiedliche Konformation des gleichen Moleküls biologisch aktiv sein. Daher eröffnet die Konformationselastizität molekularer Strukturen einen weiten Bereich von Möglichkeiten bei der Frage nach möglichen Liganden. Aber gleichzeitig legt sie der Suchkomponente der üblichen Lösungswege eine schwere Bürde auf.The Treating the molecules in a database as rigid facilitates the search in 3D databases great at the expense of rejecting Numbers of valid Candidates: although the stored conformation of a molecule is not the considered pharmacophore pattern / model may show a different conformation of the same molecule to be biologically active. Therefore open the conformational elasticity molecular structures a wide range of possibilities the question of possible Ligands. But at the same time, it puts the search component of the usual solutions a heavy burden on.

Bei einer gegebenen Datenbank D mit Molekülen hat eine direkte Lösung, die es irgendeinem Suchalgorithmus ermöglicht, Suchvorgänge hinsichtlich elastischer Konformationen in D durchzuführen, das Speichern all der Konformationen jedes der Moleküle D zur Folge. In der Praxis wird, wenn ein Kontinuum möglicher Konformationen gegeben ist, stattdessen eine große Anzahl von repräsentativen Konformationen gespeichert. Die Implikationen solch einer Lösung liegen auf der Hand: die sich daraus ergebenden Datenbanken haben überwältigende Größen, und es sind sehr lange Suchzeiten notwendig. Eine andere Lösung, um alle möglichen Konformationen zu speichern, schließt das Speichern jedes Moleküls in nur einer (oder einer Handvoll) der Konformationen ein. Zum Beispiel benutzt das System Concord-3D eine Menge von Regeln, um eine einzelne Konformation unter Benutzung der Verbindungstabellen des Moleküls zu erzeugen. Diese Lösungen gehören im wesentlichen zu einer Klasse von Verfahren, die die Elastizität in die Datenbank verlegt.at a given database D with molecules has a direct solution that It allows any search algorithm to search for perform elastic conformations in D, saving all of them Conformations of each of the molecules D entailed. In practice, when a continuum becomes more possible Conformations is given instead a large number of representative Saved conformations. The implications of such a solution lie obvious: the resulting databases have overwhelming Sizes, and very long search times are necessary. Another solution to all possible Storing conformations involves saving each molecule in only one one (or a handful) of conformations. For example The system Concord-3D uses a lot of rules to a single Conformation using the compound tables of the molecule to produce. These solutions essentially belong to a class of procedure that relocates the elasticity into the database.

In einer analogen Weise wendet eine Variante dieses Verfahrens einen Satz von Regeln an (bestimmt durch das Durchführen einer systematischen Konformationsanalyse auf Ketten verschiedener Kombinationen von 6 Hauptatomen), um den Strukturraum zu prüfen und nur bestimmte Torsionswinkel für jede rotierbare Bindung beizubehalten: es wird ein Satz von Strukturen "niedriger Energie" zusammen mit ihren entsprechenden "Abschirmungen" erzeugt. Diese Abschirmungen werden nachfolgend während der tatsächlichen Suche in der Datenbank benutzt. Bei einer dazu in Beziehung stehenden Lösung wird eine große Anzahl von Konformationen eines Moleküls in der Datenbank während der Suche erzeugt und mit dem pharmakophoren Muster verglichen. Dies ist eine überdurchschnittlich rechenbetonte Lösung, und irgendwelche Versuche, (durch die Benutzung von heuristischen Verfahren) diese Last zu verringern, haben einen direkten Einfluß auf die Qualität der erzeugten Ergebnisse: sonst gültige Übereinstimmungen werden jetzt verfehlt. Beide dieser Verfahren sind für eine Klasse von Verfahren repräsentativ, die die Konformationselastizität in die Suche verlegen.In an analogous way, a variant of this method uses one Set of rules (determined by performing a systematic conformational analysis on chains of different combinations of 6 main atoms) to the Check structure space and to maintain only certain torsion angles for each rotatable bond: it becomes a set of structures "lower Energy "together generated with their corresponding "shields". These shields be subsequently during the actual Search used in the database. In a related solution will be a big one Number of conformations of a molecule in the database during the Search generated and compared with the pharmacophore pattern. This is above average computational solution, and any attempts (through the use of heuristic Method) to reduce this load, have a direct influence on the Quality of generated results: otherwise valid matches are missed now. Both of these methods are for one class representative of procedures, the conformational elasticity relocate to the search.

Es gibt auch eine dritte Lösung, bei der die Elastizität in die Abfrage selbst gelegt wird. Die Abfrage kombiniert in diesem Fall sowohl starre als auch elastische Komponenten und wird iterativ durch das Durchsuchen einer Datenbank nach Verbindungen mit "bekannter" Aktivität verfeinert, bis die gewünschte Selektivität erhalten wird. Nachdem die endgültige Abfrage einmal verfügbar ist, wird sie benutzt, um eine Datenbank mit Verbindungen mit "unbekannten" Aktivitäten zu durchsuchen, um mögliche Beispiele zu identifizieren. Siehe dazu etwa Osman F. Güner, Douglas R. Henry, Robert S. Perlman: „Use of Flexible Queries for Searching Conformationally Flexible Molecules in Databases of Three-Dimensional Structures", J. Chem. Inf. Comput. Sci., 1992, Vol. 32, Seiten 101-109.It also gives a third solution, at the elasticity placed in the query itself. The query combines in this Case both rigid and elastic components and becomes iterative refined by searching a database for compounds with "known" activity, until the desired selectivity is obtained. After the final Query once available is used to search a database of connections with "unknown" activities, to possible Identify examples. See about Osman F. Güner, Douglas R. Henry, Robert S. Perlman: "Use of Flexible Queries for Searching Conformationally Flexible Molecules in Databases of Three-Dimensional Structures, J. Chem. Inf. Comput. Sci., 1992, Vol. 32, pages 101-109.

Die erfolgreicheren Suchverfahren greifen das Problem der Konformationselastizität in einer hinsichtlich des Rechenaufwands anspruchsvollen Weise an; das Ergebnis früherer Arbeit war, dass elastisches, dreidimensionales Suchen, das die von Clark et al. entwickelte Lösung benutzte, ein Minimum einer hundertfachen Verlangsamung gegenüber dem Fall der starren Übereinstimmung herbeiführt. Diese Verlangsamung erscheint typisch und unabhängig von dem tatsächlich benutzten Verfahren zu sein.The more successful search methods address the problem of conformational elasticity in one demanding in terms of computational effort; the result earlier Work was that elastic, three-dimensional searching, that the by Clark et al. developed solution used, a minimum of a hundredfold slowdown compared to the Case of rigid agreement causes. This slowdown appears typical and independent of the one actually used To be method.

In einer Vergleichsstudie von Haraki et al. wurde gezeigt, dass das Vergrößern einer Datenbank um mehrfache Konformationen eines bestimmten Moleküls generell die Leistung eines Suchalgorithmus verbessert. Aber die gleiche Studie bewies auch, dass die sich ergebende Effektivität in starkem Maße von dem Verfahren abhängt, das benutzt wurde, um die verschiedenen Konformationen, die der Datenbank hinzuzufügen waren, zu erzeugen.In a comparative study by Haraki et al. was shown that Enlarge one Database of multiple conformations of a particular molecule in general improves the performance of a search algorithm. But the same Study also proved that the resulting effectiveness in strong Measures of depends on the method that was used to describe the different conformations that the To add database, to create.

Als eine Alternative zu der mehrfachen Aufnahme eines Moleküls in die Datenbank wird eine bestimmte Art der Minimierung in dem "Diskrepanzraum" ausgeführt. Diese Lösung ist viel schneller, erfordert aber bestimmte Beziehungen zwischen der Anzahl der Strukturzwänge und der Anzahl der rotierbaren Bindungen; darüberhinaus erbt sie alle die Probleme nichtlinearer Optimierungslösungen.When an alternative to the multiple inclusion of a molecule in the Database, a certain type of minimization is performed in the "discrepancy space". These solution is much faster, but requires certain relationships between the number of structural constraints and the number of rotatable bonds; moreover, she inherits all of them Problems of nonlinear optimization solutions.

Noch eine andere Art des Verfahrens versucht im wesentlichen, starres Andocken nur an den starren Unterteilen des Moleküls durchzuführen und dann die Kompatibilität der verschiedenen angedockten Teile in einer Phase nach der Verarbeitung zu prüfen. Dieses Verfahren ist generell hinsichtlich des Rechenbedarfs sehr anspruchsvoll.Yet another type of process essentially attempts to be rigid Perform docking only on the rigid subparts of the molecule and then the compatibility the various docked parts in one phase after processing to consider. This method is generally very computationally demanding demanding.

Eine Reihe abgekürzter Verfahren in der Form heuristischer Suchverfahren ist eingeführt worden, um die Rechenbürde etwas zu vermindern, aber nicht ohne ungünstigen Einfluß auf die Qualität der erzeugten Ergebnisse. Um dieser Feststellung entgegenzuwirken, sind diese heuristischen Verfahren von einer allgemeineren Anwendbarkeit und können auch in dem Fall benutzt werden, in dem die Konformationselastizität nicht einer der Parameter des Problems ist.A Series abbreviated Procedure in the form of heuristic search methods has been introduced, to the arithmetic burden to reduce something, but not without unfavorable influence on the quality the results generated. To counteract this finding, These heuristics are of more general applicability and can also be used in the case where the conformational elasticity is not one the parameter of the problem is.

Insbesondere gibt ein bestimmter Stand der Technik eine sorgfältige Darstellung und führt eine Vergleichsstudie einer Anzahl von Deskriptoren für die Zwecke der Überprüfung der Datenbank aus. Die Deskriptoren überdecken einen großen Bereich von Eigenschaften der Moleküle in der Datenbank: physikalische, chemische, geometrische wie auch verschiedene Kombinationen davon. Die Unterscheidungsfähigkeit von einigen der vorgeschlagenen Deskriptoren ist ermutigend, aber die Ergebnisse sind unter Benutzung einer kleinen Datenbank mit nur wenigen Tausend Verbindungen erhalten worden.Especially is a certain prior art, a careful presentation and leads a Comparative study of a number of descriptors for the purpose of reviewing the Database off. Cover the descriptors a big Range of properties of the molecules in the database: physical, chemical, geometric as well as various combinations thereof. The discrimination ability from some of the proposed descriptors is encouraging, though the results are using a small database with only a few thousand compounds have been obtained.

Die zugehörige Arbeit führt ein Zweistufenverfahren ein, das im wesentlichen die Konformation ohne die Notwendigkeit charakterisiert, ein große Zahl von Andockorientierungen zu prüfen. In der ersten Stufe wird eine Zahl aus 2048 Bits für jedes der Moleküle in der Datenbank durch Einsetzen geeigneter Bits in einen Bitvektor erzeugt. Die einzusetzenden Bits werden aufgrund einer 32 Bitcodierung für jedes Dreieck ausgewählt, das aus den drei Atomplätzen in dem Molekül gebildet wird. Ersichtlich fängt die Zahl geometrische Eigenschaften ein, die für jedes Molekül spezielle sind; jedoch ist die Darstellung aufgrund der Art, in der sie erzeugt wird, nicht eindeutig. Während der zweiten Stufe wird eine gleiche 2048 Bit-Codierung für das Testmolekül erzeugt und mit jeder der gespeicherten Signaturen verglichen. Für diejenigen Moleküle, deren Signaturen einen Schwellwert überschreiten, werden erneut Triplets von Atomplätzen gebildet und mit den Triplets in dem Testmolekül auf Überschneidung verglichen. Obgleich das Verfahren nicht die relative Orientierung zwischen einem Kandidaten und dem Testmolekül wiedergewinnt, scheint es als ein Filterschritt angemessen zu sein.The associated Work leads a two-step process, which is essentially the conformation characterized without the need for a large number of docking orientations to consider. In the first stage is a number of 2048 bits for each of the molecules in the database by inserting appropriate bits into a bit vector generated. The bits to be used are based on 32-bit coding for each Triangle selected, the from the three atoms in the molecule is formed. Obviously catches the number of geometric features that are special for each molecule are; however, the representation is due to the way in which it is generated not unique. While the second stage generates a same 2048 bit coding for the test molecule and compared with each of the stored signatures. For those molecules whose signatures exceed a threshold will be redone Triplets of Atoms and compared to the triplets in the test molecule for overlap. Although the procedure does not indicate the relative orientation between a candidate and the test molecule recovers, it seems to be appropriate as a filtering step.

In all dem beschriebenen Stand der Technik stehen die Verfahren entweder in keinem guten Verhältnis zu der Größe der Datenbank (aufgrund der Notwendigkeit einer seriellen Abfrage und der Verarbeitung all der Einträge) oder sie nutzen die Zwänge nicht voll aus, die durch die rotierbaren Bindungen auferlegt werden, um das Ausmaß der Suche zu begrenzen.In In all the prior art described, the methods are either in no good relation to the size of the database (due to the need for a serial query and processing all the entries) or they use the constraints not fully imposed by the rotatable bonds, to the extent of Limit search.

Anders als die Verfahren, die eine lineare Abfrage der Datenbank D erfordern, basieren Hash-Verfahren auf der Identifizierung bestimmter invarianter Deskriptoren (Indizes), die benutzt werden können, um in einer Suchtabelle eine Teildarstellung eines Moleküls zu speichern. Kompatible Moleküle können durch Berechnen der Indizes aus einer Testeingabe, Wiederauffinden der Teildarstellung aus der Suchtabelle und direktes Integrieren des Ergebnisses wiedergefunden werden, wodurch die Notwendigkeit eliminiert wird, die gesamte Datenbank nach einer oder mehreren Übereinstimmungen abzufragen. Für Moleküle können Indizes durch Benutzen von Tupeln von Atomen (z.B. Triplets) mit Atomeigenschaften oder von Tupeln der Bruchstücke mit kleiner Oberfläche, die ihren Normalen zugeordnet sind, und den chemischen Eigenschaften an der Oberfläche (zwei unabhängige Bruchstücke genügen in diesem Fall) gebildet werden.Different as the methods that require a linear query of database D, Hash methods are based on the identification of certain invariants Descriptors (indices) that can be used to search in a search table a partial representation of a molecule save. Compatible molecules can by calculating the indices from a test input, retrieval the partial representation from the search table and direct integration the result can be recovered, eliminating the need eliminates the entire database after one or more matches query. For molecules can Using indices by using tuples of atoms (e.g., triplets) with Atomic properties or tuples of small surface fragments, the associated with their normals, and the chemical properties on the surface (two independent fragments suffice in this case).

Bei früherer Arbeit wurde argumentiert, daß das Benutzen von Indizes einer hochdimensionalen Art (mit einer großen Zahl bestimmter Werte) für das korrekte Verhalten dieser Verfahren schwierig ist, wenn die Größe der Datenbank groß wird. Zwei Hauptpunkte tragen zu diesem sehr allgemeinen Ergebnis bei. Erstens sind Fächer in einer Suchtabelle mit einer großen Menge von Fächern im Durchschnitt weniger gedrängt. Und zweitens kann eine grobere Quantisierung längs jeder der Indexdimensionen benutzt werden, wodurch die Wahrscheinlichkeit des Wiedergewinnens des gleichen Index während des Wiederauffindens ähnlicher Definitionseinheiten erhöht wird.at earlier Work was argued that that Using indices of a high-dimensional type (with a large number certain values) for The correct behavior of this procedure is difficult if the size of the database gets big. Two main points contribute to this very general result. First, there are subjects in a search table with a large amount of subjects in the Average less crowded. And secondly, a coarser quantization along each of the index dimensions be used, thus reducing the likelihood of recovering of the same index during of retrieving more similar Increased definition units becomes.

Anders aber als die auf der Abfrage basierenden Verfahren hat die Klasse der Hash-Algorithmen die Speicheranforderungen erhöht. Insbesondere leiten die verschiedenen Instanziierungen des Algorithmus ihre Geschwindigkeit von dem Vorausberechnen der Ergebnisse ab und speichern sie in geeignet aufgebauten Suchtabellen. Diese Vorausberechnung kann systemunabhängig durchgeführt werden, erfolgt nur einmal, und die Ergebnisse werden auf einer Diskette gespeichert und benutzt, wenn sie benötigt werden. Die Hash-Lösung tauscht im wesentlichen Speicherplatz gegen Berechnung ein; angesichts der abnehmenden Kosten für langsame Speicher ist der Tausch zunehmend berechtigt und vernünftig.Different but as the query-based method has the class the hash algorithms increase the memory requirements. Especially The different instantiations of the algorithm guide their speed from predicting the results and storing them in appropriate constructed search tables. This prediction can be carried out system-independently, is done only once, and the results are on a floppy disk stored and used, if needed. The hash solution swaps essentially memory space against calculation; Given the decreasing costs for slow Memory, the exchange is increasingly justified and reasonable.

4.0 ZIELE DER ERFINDUNG4.0 OBJECTIVES THE INVENTION

Ein Ziel dieser Erfindung ist ein verbessertes Computersystem und ein Verfahren zum Identifizieren derjenigen Moleküle in einer Datenbank D, die eine oder mehrere Moleküle enthält, die Teilstrukturen gemeinsam mit Teilstrukturen eines oder mehrerer Testmoleküle C enthalten, selbst wenn die Moleküle in der Datenbank Atomgruppen enthalten, die die Freiheit haben, um irgendwelche kovalenten Bindungen herum zu rotieren, die in dem Molekül vorhanden sein können (Torsionselastizität).One The aim of this invention is an improved computer system and a Method for identifying those molecules in a database D that one or more molecules contains the substructures together with substructures of one or more test molecules C, even if the molecules in the database atomic groups contain the freedom to have any covalent bonds to rotate around, which may be present in the molecule (torsional elasticity).

5.0 ZUSAMMENFASSUNG DER ERFINDUNG5.0 ABSTRACT OF THE INVENTION

Dieses System und dieses Verfahren identifizieren Moleküle und/oder Molekülteilstrukturen in einer Datenbank, die ähnlich oder identisch einem oder mehreren Testmolekülen und/oder Teilstrukturen und/oder Teilen von Teilstrukturen dieser Testmoleküle sind.This The system and method identify molecules and / or molecular substructures in a database similar or identical to one or more test molecules and / or substructures and / or parts of partial structures of these test molecules.

Die Erfindung benutzt einen Referenz-Speicherungsprozeß, um eine Datenstruktur so zu besiedeln, daß die Datenstruktur alle der Molekülstrukturen und/oder Teilstrukturen in der Datenbank enthält, die gemäß Attributen von Tupeln klassifiziert sind. Bei einem bevorzugten Ausführungsbeispiel werden die Tupel von Plätzen (z.B. Atomplätzen) der Molekülstrukturen (Teilstrukturen) abgeleitet, die gewählt wurden, um die Tupel zu erstellen, und die Attribute sind geometrische (und andere) Informationen, die zu den gewählten Tupeln in Beziehung stehen. Die Attribute werden benutzt, um Indizes in einer Datenstruktur zu definieren, die invarianten Vektorinformationen (genannt Vektorinformationen) zugeordnet sind, die sich auf die Moleküle in der Datenbank D beziehen. Zum Beispiel können die invarianten Vektoren rotierbare Bindungen in Referenzmolekülen in der Datenbank D darstellen. Diese invarianten Vektoren (z.B. rotierbare Bindungen) werden in schiefwinkligen, lokalen Koordinatenrahmen dargestellt, die aus den Tupeln erstellt werden, die von starren Molekülteilstrukturen abgeleitet werden, mit denen der (die) Vektor(en) verbunden ist (sind). Diese Darstellungen sind invariant im Hinblick auf die Rotation und die Translation der Molekülstrukturen und/oder der Rotation von Teilstrukturen um die zugehörige rotierbare Bindung. Demgemäß können invariante Vektorinformationen, die sich auf Moleküle in der Datenbank beziehen, im Hinblick auf die Tupelattribute durch Speichern der invarianten Vektorinformationen in Speicherstellen (Vektorfeldern) der Datenstruktur klassifiziert werden, die dem Index zugeordnet sind, der von dem betreffenden Tupel abgeleitet wird. Nachdem die Datenstruktur einmal besiedelt ist, schafft ein Vergleichsprozeß ein oder mehrere Tupel, schiefwinklige, lokale Referenzrahmen und Indizes (genannt Testrahmen-Tupelindizes) für die Struktur (Teilstrukturen) eines Testmoleküls unter Benutzen des gleichen Verfahrens, das benutzt wurde, um die Datenstruktur zu besiedeln. Der Tupelindex des Testrahmens wird benutzt, um auf die invarianten Vektorinformationen zuzugreifen, die sich in dem Vektorfeld des Datenstrukturindexes befinden, der mit dem Index des Testrahmens übereinstimmt. Eine Zählung der Häufigkeit von übereinstimmenden Vektorinformationen (Indizes) der Molekülstrukturen (Teilstrukturen und/oder Teilen) in der Datenbank mit den Tupelindizes des Testrahmens, die für das Testmolekül erzeugt wurden, wird festgehalten, um zu bestimmen, welche Molekülstrukturen (Teilstrukturen und/oder Teile) identisch oder ähnlich mit denjenigen in der Datenbank übereinstimmen.The Invention uses a reference storage process to create a Data structure to be populated so that the data structure of all the molecular structures and / or substructures in the database classified according to attributes of tuples are. In a preferred embodiment become the tuples of places (e.g., atoms) the molecular structures Derived (substructures) that were chosen to create the tuples, and the attributes are geometric (and other) information, the ones chosen Tuples are related. The attributes are used to create indexes in a data structure, the invariant vector information (called vector information) are assigned, referring to the molecules refer to the database D. For example, the invariant vectors represent rotatable bonds in reference molecules in the database D. These invariant vectors (e.g., rotatable bonds) are disclosed in U.S. Pat skewed, local coordinate frames shown off The tuples are created by rigid molecular substructures are derived, with which the vector (s) is connected (are). These representations are invariant with regard to rotation and the translation of the molecular structures and / or the rotation of substructures about the associated rotatable one Binding. Accordingly, invariant Vector information related to molecules in the database with regard to the tuple attributes by storing the invariant vector information classified in memory locations (vector fields) of the data structure which are assigned to the index, that of the relevant Tuple is derived. Once the data structure is populated, creates a comparison process or multiple tuples, oblique, local reference frames and indices (called Test frame Tupelindizes) for the Structure (substructures) of a test molecule using the same Method used to populate the data structure. The tuple index of the test frame is used to reference the invariant ones Vector information that is in the vector field of the Data structure index that matches the index of the test frame. A count the frequency of matching Vector information (indices) of the molecular structures (substructures and / or parts) in the database with the tuple indexes of the test frame, the for the test molecule is recorded to determine which molecular structures (Substructures and / or parts) identical or similar to those in the Database match.

6.0 KURZE BESCHREIBUNG DER ZEICHNUNGEN6.0 SHORT DESCRIPTION THE DRAWINGS

Die vorstehenden und andere Ziele, Aspekte und Vorteile der Erfindung werden besser anhand der folgenden detaillierten Beschreibung bevorzugter Ausführungsbeispiele der Erfindung mit Bezugnahme auf die Zeichnungen verstanden, die wie folgt beschrieben werden:The The foregoing and other objects, aspects and advantages of the invention will be better appreciated from the following detailed description embodiments of the invention with reference to the drawings, which as follows:

1 ist ein Blockdiagramm eines Computersystems, das die vorliegende Erfindung verwirklicht. 1 Figure 11 is a block diagram of a computer system embodying the present invention.

2A ist ein Diagramm einer Molekülstruktur, die starre Teilstrukturen von Atomgruppen in dem Molekül zeigt, die Rotationsnatur einer typischen Rotationsbindung zwischen starren Teilstrukturen, einen globalen Koordinatenrahmen, einen schiefwinkligen, lokalen Koordinatenrahmen, ein "Rahmentupel", das den schiefwinkligen, lokalen Koordinatenrahmen definiert, und eine Darstellung eines invarianten Vektors, der zwei Punkte auf einer oder mehreren starren Strukturen verbindet, und eine erste Konformation der Molekülstruktur. 2A Figure 12 is a diagram of a molecular structure showing rigid substructures of atomic groups in the molecule, the rotational nature of a typical rotational bond between rigid substructures, a global coordinate frame, a skewed, local coordinate frame, a "frame tuple" defining the skewed, local coordinate frame, and a Representation of an invariant vector connecting two points on one or more rigid structures and a first conformation of the molecular structure.

2B ist ein Diagramm, das eine zweite Molekülkonformation der Molekülstruktur zeigt, den globalen Koordinatenrahmen, den schiefwinkligen, lokalen Koordinatenrahmen und den invarianten Vektor nach 2A. 2 B is a diagram showing a second molecular conformation of the molecular structure, the global coordinate frame, the skewed, local coordinate frame, and the invariant vector 2A ,

3 ist eine Folge von Zeichnungen, die zeigen, wie die Platzmengen K-O definiert sind (3A), Attrappenplätze Du definiert sind und dann benutzt werden (3B) und wie Tupeln (3B-3E) definiert sind durch Auswählen einer Menge mit einem oder mehreren Atomplätzen und/oder Attrappenplätzen Du der Molekülstruktur. 3 is a sequence of drawings that show how the sets KO are defined ( 3A ), Dummy places you are defined and then used ( 3B ) and like tupling ( 3B - 3E ) are defined by selecting a set having one or more atoms and / or dummy sites of the molecular structure.

4 ist ein Blockdiagramm einer Datenstruktur, die einen Index, der einem Tupel entspricht, den Vektorinformationen zuordnet, die der Darstellung eines invarianten Vektors in jedem der schiefwinkligen, lokalen Koordinatenrahmen des Tupels entsprechen, das den Index erzeugt. 4 Figure 12 is a block diagram of a data structure that associates an index corresponding to a tuple with vector information corresponding to the representation of an invariant vector in each of the skewed, local coordinate frames of the tuple that generated the index.

5, die die 5A, 5B und 5C umfaßt, ist ein Flußdiagramm, das die Schritte des Besiedelns der Datenstruktur nach 4 zeigt, um Strukturinformationen und andere Informationen über eines oder mehrere Referenzmoleküle zu erhalten. 5 that the 5A . 5B and 5C is a flow chart showing the steps of the Besie according to the data structure 4 to obtain structural information and other information about one or more reference molecules.

6, die die 6A, 6B und 6C umfaßt, ist ein Flußdiagramm eines bevorzugten Verfahrens, das die Schritte des Bestimmens zeigt, welche Referenzmoleküle in der Bibliothek (Datenbank D), die ein oder mehrere Moleküle enthält, für eine ausgewählte Menge einer oder mehrerer Moleküleigenschaften einem Testmolekül ähnlich sind (= mit ihm übereinstimmen). 6 that the 6A . 6B and 6C is a flow chart of a preferred method showing the steps of determining which reference molecules in the library (database D) containing one or more molecules are similar to (= compatible with) a test molecule for a selected set of one or more molecular properties ).

7 ist ein Blockdiagramm einer Abstimmungstabelle, die benutzt wird, um die relative Häufigkeit (Vielfachheit der Werte) der Identitäten derjenigen Moleküle und/oder Molekülteilstrukturen in der Datenbank D zu bestimmen, die mit dem Testmolekül für eine gegebene Menge von Moleküleigenschaften übereinstimmen. 7 FIG. 12 is a block diagram of a tuning table used to determine the relative abundance (multiplicity of values) of the identities of those molecules and / or molecular substructures in the database D that match the test molecule for a given set of molecular properties.

7.0 GENAUE BESCHREIBUNG DER ERFINDUNG7.0 DETAILED DESCRIPTION THE INVENTION

Es wird jetzt auf die Zeichnungen und insbesondere auf 1 Bezug genommen. Dort ist die Blockdiagrammdarstellung der Hardwareumgebung 100 eines Mehrzweckrechners dargestellt. Dieser Computer 100 kann ein Personalsystem/2 (PS/2) aus der Familie von Personalcomputern der International Business Machines Corporation (IBM) sein, ein RISC-System/6000 oder ein System mit paralleler Leistung (SP/x). Das System 100 schließt eine oder mehrere Zentraleinheiten (ZE) 10 ein, die der x86-Architektur von Intel entsprechen können oder Mikroprozessoren mit verringertem Befehlssatz sein können. Die ZE 10 ist an einen Systembus 12 angeschlossen, an den ein Schreib-/Lesespeicher und/oder ein Speicher 14 mit wahlfreiem Zugriff, abgekürzt als (RAM = Random Access Memory), der einen oder mehrere Cache-Speicher einschließen kann, angeschlossen ist, ein Festspeicher 16, abgekürzt als (ROM = Read Only Memory), ein Ein-/Ausgabe-Adapter 18, abgekürzt als E-/A-Adapter, und ein Adapter 22 einer Benutzungsschnittstelle. Der RAM 14 sorgt für die zeitweilige Speicherung eines oder mehrerer Anwendungsprogramme 40, die Code und/oder Daten enthalten, während der ROM 16 typischerweise den Code des Basis-Ein-/Ausgabe-Systems, abgekürzt als (BIOS = Basic Input/Output System) enthält. Der E-/A-Adapter 18 ist mit einem oder mehreren Speichergeräten für direkten Zugriff, abgekürzt als (DASD = Direct Access Storage Device), hier dargestellt als Diskettenlaufwerk 19, einem Festplattenlaufwerk 20 und einem CD-ROM 21 verbunden. Das Festplattenlaufwerk 20 speichert typischerweise das Betriebssystem, abgekürzt als (OS = Operating System) des Computers, z.B. das Betriebssystem OS/2 von IBM, und verschiedene Anwendungsprogramme, Daten und/oder Datenbanken 50, von denen jede selektiv über den Systembus 12 in den RAM 14 geladen werden kann. Der Adapter 22 der Benutzungsschnittstelle ist mit einer Tastatur 24, einer Steuerkugel 26 und/oder anderen (nicht dargestellten) Geräten der Benutzungsschnittstelle verbunden.It will now be on the drawings and in particular on 1 Referenced. There is the block diagram representation of the hardware environment 100 a multi-purpose computer shown. This computer 100 may be a Personal System / 2 (PS / 2) from the family of personal computers of International Business Machines Corporation (IBM), a RISC system / 6000 or a parallel power system (SP / x). The system 100 closes one or more central units (ZE) 10 which may conform to Intel's x86 architecture or may be microprocessors with a reduced instruction set. The ZE 10 is to a system bus 12 connected to a read / write memory and / or memory 14 random access memory (RAM), which may include one or more caches, is a non-volatile memory 16 , abbreviated as (ROM = Read Only Memory), an input / output adapter 18 , abbreviated as an I / O adapter, and an adapter 22 a user interface. The RAM 14 provides temporary storage of one or more application programs 40 containing code and / or data during the ROM 16 typically contains the code of the basic I / O system, abbreviated as (Basic Input / Output System). The I / O adapter 18 is one or more direct access storage devices, abbreviated as (DASD = Direct Access Storage Device), shown here as a floppy disk drive 19 , a hard drive 20 and a CD-ROM 21 connected. The hard disk drive 20 typically stores the operating system, abbreviated as (OS) operating system of the computer, for example, the OS / 2 operating system of IBM, and various application programs, data and / or databases 50 , each of which is selective over the system bus 12 in the RAM 14 can be loaded. The adapter 22 The user interface is with a keyboard 24 , a control ball 26 and / or other devices (not shown) of the user interface.

Das System 100 kann auch eine Anzeigeeinheit 38 einschließen, die hier als eine Kathodenstrahlröhren-Anzeigeeinheit, abgekürzt als (CRT = Cathode Ray Tube)-Anzeigeeinheit dargestellt ist, die aber auch eine Flüssigkristall-Anzeigeeinheit, abgekürzt als (LCD = Liquid Crystal Display) oder eine andere geeignete Anzeigeeinheit und/oder eine graphische Benutzungsschnittstelle, abgekürzt als (GUI = Graphic User Interface) sein kann. Die Anzeigeeinheit 38 ist über einen Anzeigeadapter 36 mit dem Systembus 12 verbunden. Ein Multimedia-Adapter 34, wie z.B. der ActionMedia II-Anzeigeadapter der Firma Intel Corporation kann auch mit dem Bus 12 verbunden sein und mit einem Mikrophon 32 und einem Lautsprecher 28. Der Multimedia-Adapter 34 wird durch geeignete Software unterstützt, wie z.B. den Multimedia-Präsentationsmanager/2. Diese Systeme 100 und Äquivalente dieser Systeme sind den Fachleuten gut bekannt.The system 100 can also be a display unit 38 which is shown here as a CRT display unit, abbreviated as CRT (Cathode Ray Tube) display unit, but also includes a liquid crystal display unit abbreviated as (LCD = Liquid Crystal Display) or other suitable display unit and / or a graphical user interface, abbreviated as (GUI = Graphic User Interface) can be. The display unit 38 is via a display adapter 36 with the system bus 12 connected. A multimedia adapter 34 , such as the ActionMedia II display adapter from Intel corporation can also use the bus 12 be connected and with a microphone 32 and a speaker 28 , The multimedia adapter 34 is supported by suitable software, such as the Multimedia Presentation Manager / 2. These systems 100 and equivalents of these systems are well known to those skilled in the art.

Personal System/2, PS/2, RISC-System/6000, Power Parallel System, SP/x und IBM sind Warenzeichen der International Business Machines Corporation.staff System / 2, PS / 2, RISC system / 6000, Power Parallel System, SP / x and IBM are trademarks of International Business Machines Corporation.

Einige der Anwendungsprogramme 40 werden unten als Prozeßverfahren beschrieben. Datenbanken 50 für Moleküldaten, die auch unten beschrieben werden, werden typischerweise in den Speichergeräten gespeichert, z.B. in dem Festplattenlaufwerk 20.Some of the application programs 40 are described below as process procedures. databases 50 for molecular data, also described below, are typically stored in the storage devices, eg in the hard disk drive 20 ,

2A ist ein Diagramm einer Molekülstruktur 200, die starre Teilstrukturen (210, 220) von Atomgruppen in dem Molekül 200 zeigt, die Rotationsnatur 215 einer typischen rotierbaren Bindung 218 zwischen starren Teilstrukturen (210, 220), einen globalen Koordinatenrahmen 235, einem schiefwinkligen, lokalen Koordinatenrahmen 245, ein "Rahmentupel", das den schiefwinkligen, lokalen Koordinatenrahmen 245 definiert, und eine Darstellung eines invarianten Vektors 238, der zwei Punkte (D, G) auf einer oder mehreren starren Teilstrukturen (210, 220), verbindet, und eine erste Konformation 200 der Molekülstruktur. 2A is a diagram of a molecular structure 200 , the rigid substructures ( 210 . 220 ) of atomic groups in the molecule 200 shows the rotation nature 215 a typical rotatable bond 218 between rigid substructures ( 210 . 220 ), a global coordinate frame 235 , a skewed, local coordinate frame 245 , a "frame tuple" representing the skewed, local coordinate frame 245 defined, and a representation of an invariant vector 238 containing two points (D, G) on one or more rigid substructures ( 210 . 220 ), and a first conformation 200 the molecular structure.

Unten werden einige der Ausdrücke, die ausgiebig in dem Text benutzt werden, definiert und erläutert.Below become some of the expressions, which are extensively used in the text, defined and explained.

Eine Molekülstruktur (200, 250) ist eine Menge von Atomen (z.B. A-P), die miteinander durch chemische Bindungen, typischerweise MO, verbunden sind. (Bindungen werden durch Buchstabenpaare bezeichnet, die den beiden Atomen entsprechen, die durch die Bindung verbunden werden). Im allgemeinen wird die Molekülstruktur 200 typischerweise definiert durch eine Menge von Koordinaten für die Plätze, die von den verschiedenen Atomen besetzt werden. Zum Beispiel definieren die Koordinaten (x, y, z) die Position des Atoms O in dem globalen (Laboratoriums-) Koordinatenrahmen 235. Der globale Koordinatenrahmen 235 wird für die Zwecke der Analyse unten als fest und konstant angenommen.A molecular structure ( 200 . 250 ) is an amount of atoms (eg, AP) linked together by chemical bonds, typically MO. (Bindings are denoted by pairs of letters that correspond to the two atoms joined by the bond). In general, the molecular structure becomes 200 typically defined by a set of coordinates for the places occupied by the different atoms. For example, the coordinates (x, y, z) define the position of the atom O in the global (laboratory) coordinate frame 235 , The global coordinate frame 235 is assumed to be fixed and constant for the purposes of the analysis below.

Darüberhinaus definiert auch eine Liste der chemischen Bindungen, die die Plätze miteinander verbinden, z.B. MO, auch die Molekülstruktur 200. Den verschiedenen Plätzen (A-P) der Molekülstruktur 200 und/oder den entsprechenden Atomen, die diese Plätze in dem globalen Koordinatenrahmen 235 besetzen, werden typischerweise Marken gegeben (zum Beispiel: eine Zahl), die sie voneinander unterscheidet. Für unsere Zwecke benutzen wir austauschbar einen Buchstaben (z.B. A-P) und/oder eine Zahl, um das Atom und/oder den Platz, an dem sich das Atom befindet, in dem globalen Koordinatenrahmen 235 zu kennzeichnen.In addition, a list of chemical bonds connecting sites, eg, MO, also defines the molecular structure 200 , The different places (AP) of the molecular structure 200 and / or the corresponding atoms that occupy these places in the global coordinate frame 235 occupy brands are typically given (for example: a number), which distinguishes them from each other. For our purposes we interchangeably use a letter (eg AP) and / or a number around the atom and / or the place where the atom is located in the global coordinate frame 235 to mark.

Schließlich ist zusätzlich zu der Liste der Platzkoordinaten und der Liste der chemischen Bindungen eine Liste von Atomarten (z.B. N, C, O, H usw.) für jedes der Atome vorgesehen, die die verschiedenen Plätze der Molekülstruktur besetzen.Finally is additionally to the list of place coordinates and the list of chemical bonds one List of atomic species (e.g., N, C, O, H, etc.) for each of the atoms, the different places of the molecular structure occupy.

Beachte, daß gelegentlich eine Molekülstruktur unter Benutzung der Liste der chemischen Bindungen und der Liste von Atomarten für jedes der Atome angegeben wird, die an der Struktur teilhaben. Eine Molekülstruktur, die in solch einer Weise definiert ist, ist auf keinen Fall unbestimmt: in der Tat können die Koordinaten der Atomplätze aus den gegebenen Informationen unter Benutzung einer Vielzahl von Standardverfahren wiederhergestellt werden.Note that occasionally a molecular structure using the list of chemical bonds and the list of atomic species for each of the atoms involved in the structure is stated. A Molecular Structure, which is defined in such a way is by no means indefinite: in fact you can the coordinates of the atomic sites from the given information using a variety of Standard procedures are restored.

Eine Bindung, MO, stellt eine chemische Verbindung zwischen zwei Atomen (M, O) in der Molekülstruktur 200 dar. Bindungen werden typischerweise in der Form von Marken definiert, die zwei Atomplätzen zugeordnet sind, die die Bindung verbindet.A bond, MO, provides a chemical link between two atoms (M, O) in the molecular structure 200 Bonds are typically defined in the form of labels associated with two atoms connecting the bond.

Einige der Bindungen in einem gegebenen Molekül können rotierbar sein und lassen daher die Torsionselastizität 215 zu: die starren Teilstrukturen (210, 220) sind mit zwei Endpunkten einer rotierbaren Bindung verbunden und können daher in Beziehung zueinander rotieren 215.Some of the bonds in a given molecule can be rotatable and therefore leave the torsional elasticity 215 to: the rigid substructures ( 210 . 220 ) are connected to two end points of a rotatable bond and can therefore rotate in relation to each other 215 ,

Innerhalb jeder der beiden starren Teilstrukturen (210, 220) auf jeder Seite einer rotierbaren Bindung 218 sind Atome durch Bindungen miteinander verbunden, die keine solche Torsionselastizität (nicht rotierbare Bindungen – AC, MO) zulassen. Dies trifft für den allgemeinen Fall nicht zu: dort sind Molekülstrukturen vorhanden, die eine gelenkartige Elastizität zeigen, aber eine Behandlung dieser Teilstrukturen sprengt den Umfang dieser Analyse. Daher sind starre Teilstrukturen (210, 220) Strukturen eines oder mehrerer Atome, die miteinander durch nichtrotierbare Bindungen verbunden sind. Gruppen, die aus einem Atom, P, bestehen, das durch Bindungen wie NP an eine Menge von Atomen wie G, H, I, J, K, L, M, N und O gebunden sind, werden nicht als getrennte, starre Teilstrukturen betrachtet trotz der Tatsache, dass die Bindung NP rotierbar sein kann. Dies ist so, weil jede Rotation eines Atoms P um die Bindung NP nicht die Stelle von P in dem globalen Koordinatenrahmen 235 ändert. Darüber hinaus ändert jede Rotation des Atoms P um die Bindung NP nicht den Platz von P hinsichtlich der Menge von Atomen G, H, I, J, K, L, M, N und O. Beachte, dass auch starre Moleküle, d.h. diejenigen Moleküle, die keine rotierbaren Bindungen enthalten, als Moleküle einer starren Teilstruktur definiert werden können; in solch einem Fall ist das gesamte Molekül die Teilstruktur (210, 220).Within each of the two rigid substructures ( 210 . 220 ) on each side of a rotatable bond 218 Atoms are bound together by bonds that do not allow such torsional elasticity (non-rotatable bonds - AC, MO). This is not true for the general case: there are molecular structures that show a hinge-like elasticity, but treatment of these substructures goes beyond the scope of this analysis. Therefore, rigid substructures ( 210 . 220 ) Structures of one or more atoms connected to each other by nonrotatable bonds. Groups consisting of an atom, P, bound by bonds such as NP to a set of atoms such as G, H, I, J, K, L, M, N, and O are not considered as separate, rigid substructures despite the fact that the bond NP can be rotatable. This is because any rotation of an atom P around the bond NP does not represent the location of P in the global coordinate frame 235 changes. Moreover, any rotation of the atom P around the bond NP does not change the place of P with respect to the set of atoms G, H, I, J, K, L, M, N and O. Note that even rigid molecules, ie those molecules which contain no rotatable bonds, can be defined as molecules of a rigid substructure; in such a case the whole molecule is the substructure ( 210 . 220 ).

Beachte auch, daß das Definieren der Koordinaten (x, y, z) der drei oder mehr Atome (Plätze) (z.B. G-P) einer gegebenen starren Teilstruktur 220 in dem globalen Koordinatenrahmen 235 genügt, um eine globale Position OO' und eine globale Orientierung (O'x', O'y', O'z') für die starre Teilstruktur 220 in dem globalen Koordinatenrahmen 235 zu definieren. Beachte außerdem, daß die Menge der drei oder mehr Atome (Plätze), die die globale Position und Orientierung für die starre Teilstruktur 220 definieren, das Atom (den Platz) D einschließen können, da die Rotation 215 rund um die rotierbare Bindung 218 der starren Teilstruktur 210 hinsichtlich der starren Teilstruktur 220 die Position des Atoms (des Platzes) D hinsichtlich der starren Teilstruktur 220 nicht ändert. In gleicher Weise könnte beim Definieren einer globalen Position und Orientierung für die starre Teilstruktur 210 die Menge von drei oder mehr Atomen (Plätzen) das Atom (den Platz) G zusätzlich zu den Atomen (Plätzen) A-F einschließen.Also note that defining the coordinates (x, y, z) of the three or more atoms (squares) (eg GP) of a given rigid substructure 220 in the global coordinate frame 235 is enough to have a global position OO 'and a global orientation (O'x', O'y ', O'z') for the rigid substructure 220 in the global coordinate frame 235 define. Also note that the set of three or more atoms (squares) indicates the global position and orientation for the rigid substructure 220 define the atom (the place) D can include, as the rotation 215 around the rotatable binding 218 the rigid substructure 210 with regard to the rigid substructure 220 the position of the atom (the place) D in terms of the rigid substructure 220 does not change. Similarly, when defining a global position and orientation for the rigid substructure 210 the amount of three or more atoms will include the atom G in addition to the atoms AF.

Folglich hat der Vektor 238, der unten definiert ist, eine starre Position und Orientierung im Hinblick auf jede starre Teilstruktur 210 oder 220, die die rotierbare Bindung 218 verbindet. Dies tritt ein, weil die Position und Orientierung der rotierbaren Bindung 218 hinsichtlich jeder starren Teilstruktur sich nicht ändert trotz der Rotation in dem globalen Koordinatenrahmen 235 jeder der beiden Teilstrukturen um die rotierbare Bindung 218.Hence the vector has 238 , which is defined below, a rigid position and orientation with respect to any rigid substructure 210 or 220 holding the rotatable bond 218 combines. This occurs because the position and orientation of the rotatable bond 218 with respect to each rigid substructure does not change despite the rotation in the global coordinate frame 235 each of the two substructures around the rotatable bond 218 ,

Im folgenden kann der Ausdruck starre Teilstruktur (210, 220) austauschbar mit dem Ausdruck starre Gruppe (210, 220) benutzt werden.In the following, the term rigid substructure ( 210 . 220 ) interchangeable with the term rigid group ( 210 . 220 ) to be used.

Wie unten erörtert wird, muß der Vektor 238, der wie bereits erwähnt, eine feste Position und Orientierung hinsichtlich jeder der beiden starren Teilstrukturen 210 oder 220 hat, nicht in Form der rotierbaren Bindung 218 definiert werden, die aus der starren Struktur 210, 220 herrührt. In der Tat kann für eine gegebene starre Teilstruktur der Vektor 238 irgendein Vektor sein, der als starr plaziert im Hinblick auf die starre Teilstruktur definiert werden kann.As will be discussed below, the vector must 238 as already mentioned, a fixed position and orientation with respect to each of the two rigid substructures 210 or 220 has, not in the form of the rotatable bond 218 be defined from the rigid structure 210 . 220 arises. In fact, for a given rigid substructure, the vector 238 may be any vector that can be defined as rigidly placed with respect to the rigid substructure.

Für den Augenblick wird der Vektor 238 mit Hilfe der rotierbarn Bindung 218 definiert: zum Beispiel fallen die Größe und Richtung des Vektors 238 mit denen der Bindung 218 zusammen. Die Vereinbarung über die Richtung wird als von der niedriger (höher) nummerierten Teilstruktur (210, 220) zu der höher (niedriger) nummerierten Teilstruktur (210, 220) gerichtet angesehen übereinstimmend für alle einer oder mehrerer analysierter Molekülstrukturen 200. Eine alternative Vereinbarung über die Richtung basiert auf der Kennzeichnung der Atome (Plätze) an den Endpunkten einer rotierbaren Bindung: die Richtung wird als von dem niedriger (höher) nummerierten Atom (Platz) zu dem höher (niedriger) nummerierten Atom (Platz) gerichtet angesehen übereinstimmend für alle einer oder mehrerer analysierter Molekülstrukturen 200.For the moment the vector becomes 238 with the help of the rotatable binding 218 defined: for example, the size and direction of the vector fall 238 with those of the bond 218 together. The agreement about the direction is considered to be from the lower (higher) numbered substructure ( 210 . 220 ) to the higher (lower) numbered substructure ( 210 . 220 ) aligned for all one or more analyzed molecular structures 200 , An alternative directional convention is based on the labeling of the atoms (squares) at the endpoints of a rotatable bond: the direction is considered to be from the lower (higher) numbered atom (square) to the higher (lower) numbered atom (square) consistent for all one or more analyzed molecular structures 200 ,

Eine gegebene Molekülstruktur 200 kann mehr als eine rotierbare Bindung 218 enthalten, und kann daher irgendeine einer möglicherweise unbegrenzten Anzahl von Konformationen (200, 250) mittels Rotationen rund um diese Bindungen 218 annehmen. Auf die Molekülstrukturen 200 mit einer oder mehreren rotierbaren Bindungen 218 wird Bezug genommen als auf "konformationselastische" Molekülstrukturen oder "konformationselastische" Moleküle.A given molecular structure 200 can be more than a rotatable bond 218 can therefore contain any of a possibly unlimited number of conformations ( 200 . 250 ) by means of rotations around these bonds 218 accept. On the molecular structures 200 with one or more rotatable bonds 218 is referred to as "conformationally elastic" molecular structures or "conformationally elastic" molecules.

Beachte, daß die Molekülstruktur 250 eine andere Konformation der Molekülstruktur 200 (und umgekehrt) ist, weil es die gleiche Molekülstruktur ist, deren starre Teilstrukturen (210, 220) um die rotierbare Bindung 218 im Hinblick aufeinander gedreht 215 sind.Note that the molecular structure 250 another conformation of the molecular structure 200 (and vice versa) is because it is the same molecular structure whose rigid substructures ( 210 . 220 ) around the rotatable bond 218 rotated with respect to each other 215 are.

Alternativ kann eine gegebene Molekülstruktur 200 keine rotierbarben Bindungen 218 enthalten, und auf sie wird dann Bezug genommen als auf eine "starre" Molekülstruktur oder ein "starres" Molekül.Alternatively, a given molecular structure 200 no rotatable bonds 218 and they are referred to as a "rigid" molecular structure or a "rigid" molecule.

Zusätzlich zu der Konformationselastizität einer Molekülstruktur (200, 250) durch Rotationen um seine rotierbaren Bindungen 218 kann die ganze Molekülstruktur (200, 250) auch mit drei Freiheitsgraden rotieren 290 und eine Translationsbewegung 295 mit drei Freiheitsgraden in dem globalen Koordinatenrahmen 235 ausführen.In addition to the conformational elasticity of a molecular structure ( 200 . 250 ) by rotations about its rotatable bonds 218 can the whole molecular structure ( 200 . 250 ) also rotate with three degrees of freedom 290 and a translational movement 295 with three degrees of freedom in the global coordinate frame 235 To run.

Zusätzlich zu dem globalen Koordinatenrahmen 235 kann man auch "lokale" Koordinatenrahmen 245 bilden durch geeignetes Auswählen einer kleinen Menge von Atomplätzen (z.B. I, K, H) in der Molekülstruktur (200, 250). Zum Beispiel können, wenn die drei Atomplätze I, K, H (,welche als nichtkollinear gewählt wurden,) in der Molekülstruktur (200, 250) gegeben sind, die Vektoren i = I → H und j = I → K gebildet werden. Da die drei Punkte als nichtkollinear angenommen wurden, ist das Vektorprodukt k = i × j der beiden Vektoren i und j gut definiert und senkrecht zu der Ebene, die durch die Vektoren i und j definiert wird. Die Einheitsvektoren u1, u2 und u3 längs der Richtungen, die durch die drei Vektoren i bzw. j und k definiert werden, definieren einen schiefwinkligen, lokalen Koordinatenrahmen 245. Dieser Koordinatenrahmen 245 wird 'schiefwinklig' genannt, weil in dem allgemeinen Fall die Einheitsvektoren i und j nicht orthogonal zueinander sind. Jedoch ist es möglich, daß der gebildete schiefwinklige Koordinatenrahmen 245 aus Einheitsvektoren u1 und u2 besteht, die orthogonal sind.In addition to the global coordinate frame 235 you can also use "local" coordinate frames 245 form by suitably selecting a small amount of atoms (eg I, K, H) in the molecular structure ( 200 . 250 ). For example, if the three atomic sites I, K, H (which were chosen to be non-collinear) in the molecular structure ( 200 . 250 ), the vectors i = I → H and j = I → K are formed. Since the three points were assumed to be non-collinear, the vector product k = i x j of the two vectors i and j is well defined and perpendicular to the plane defined by the vectors i and j. The unit vectors u1, u2, and u3 along the directions defined by the three vectors i, j, and k, respectively, define a skewed, local coordinate frame 245 , This coordinate frame 245 is called 'skewed' because in the general case the unit vectors i and j are not orthogonal to each other. However, it is possible that the formed skewed coordinate frame 245 consists of unit vectors u1 and u2 which are orthogonal.

Beachte, daß wie oben beschrieben, ein lokaler, schiefwinkliger Koordinatenrahmen 245 durch Auswählen eines (oder beider) der Atomplätze, die die rotierbare Bindung 218 definieren, D oder G (oder D und G) und zwei (oder einen) der verbleibenden Atomplätze der gegebenen Teilstruktur (210, 220) gebildet werden kann. Zum Beispiel: ein lokaler, schiefwinkliger Koordinatenrahmen 245 für die Teilstruktur 210 kann durch Benutzen eines der Atomplätze H, I, J, K, L, M, N, O, P und sowohl D als auch G gebildet werden. Äquivalent kann ein lokaler, schiefwinkliger Koordinatenrahmen 245 für die Teilstruktur 220 durch Benutzen zweier der Atomplätze H, I, J, K, L, M, N, O, P und exakt einem von D, G definiert werden. In ähnlicher Weise kann ein oder können mehrere schiefwinklige Koordinatenrahmen 245 für die Teilstruktur 210 ausgewählt werden.Note that as described above, a local, skewed coordinate frame 245 by selecting one (or both) of the atomic sites containing the rotatable bond 218 define D or G (or D and G) and two (or one) of the remaining atomic sites of the given substructure ( 210 . 220 ) can be formed. For example: a local, skewed coordinate frame 245 for the substructure 210 can be formed by using one of the atomic sites H, I, J, K, L, M, N, O, P and both D and G. Equivalent can be a local, skewed coordinate frame 245 for the substructure 220 by using two of the Atomic sites H, I, J, K, L, M, N, O, P and exactly one of D, G are defined. Similarly, one or more oblique coordinate frames may be used 245 for the substructure 210 to be selected.

Der globale Koordinatenrahmen 235 ist von den schiefwinkligen, lokalen Koordinatenrahmen, die man bilden kann, verschieden, da die Position und Orientierung des schiefwinkligen, lokalen Koordinatenrahmens 245 in dem globalen Koordinatenrahmen 235 variieren kann, wenn das betreffende Molekül 200 starre Transformationen (Rotationen 290 und Translationen 295) erfährt. Die gleiche Feststellung gilt, wenn eine starre Gruppe (210, 220) in der Molekülstruktur (200, 250) mit Bezug auf eine andere starre Gruppe (210, 220) um die rotierbare Bindung 218, die die beiden starren Gruppen 210 und 220 verbindet, rotiert 215.The global coordinate frame 235 is different from the skewed, local coordinate frames that can be formed, given the position and orientation of the skewed, local coordinate frame 245 in the global coordinate frame 235 can vary if the molecule in question 200 rigid transformations (rotations 290 and translations 295 ) learns. The same finding applies if a rigid group ( 210 . 220 ) in the molecular structure ( 200 . 250 ) with respect to another rigid group ( 210 . 220 ) around the rotatable bond 218 that the two rigid groups 210 and 220 connects, rotates 215 ,

Nachdem ein bestimmter schiefwinkliger, lokaler Koordinatenrahmen 245 einmal durch Benutzen der Plätze einer starren Teilstruktur 220 gebildet wurde, kann der Vektor 238, der mit der starren Teilstruktur verbunden ist, in diesem Rahmen dargestellt werden. Diese Darstellung kann entweder explizit oder implizit sein.After a certain oblique, local coordinate frame 245 once by using the places of a rigid substructure 220 The vector can be formed 238 , which is connected to the rigid substructure, are shown in this frame. This representation can be either explicit or implicit.

Bei der expliziten Darstellung hat der Verktor 238 eine feste Position und Orientierung in dem gewählten schiefwinkligen, lokalen Koordinatenrahmen 245. Diese Position und Orientierung kann zum Beispiel in Form eines Translationsvektors T, der den Mittelpunkt des schiefwinkligen, lokalen Koordinatenrahmens 245 mit irgendeinem festen Punkt SP längs der Achse (Richtung) 217 des Vektors 238 (z.B. einen der Endpunkte D, G des Vektors 238) verbindet, und einer Rotationsmatrix R beschrieben werden. Der Translationsvektor T gibt die Position des Punktes SP in dem schiefwinkligen, lokalen Koordinatenrahmen 245 an, wogegen die Rotationsmatrix R die Orientierung des Vektors 238 in dem gleichen schiefwinkligen, lokalen Koordinatenrahmen 245 angibt. Beachte, daß die Rotationsmatrix äquivalent beschrieben werden kann durch Auflisten der Längen der Projektionen des Vektors 238 auf die Achsen i, j und k des schiefwinkligen, lokalen Koordinatenrahmens 245. Alternativ kann die Rotationsmatrix durch Auflisten der Winkel beschrieben werden, die der Verktor 238 mit jeder der Achsen i, j und k des schiefwinkligen, lokalen Koordinatenrahmens 245 bildet. Außerdem können andere Informationen, z.B. die Identität der rotierbaren Bindung 218 – in dem Fall, daß der Vektor 238 in Form solch einer rotierbaren Bindung definiert ist, oder die Größe des Vektors 238 in der Darstellung eingeschlossen sein; diese zusätzlichen Informationen können für Prüfzwecke benutzt werden. Bei dieser Diskussion ist angenommen worden, daß allen Bindungen der betrachteten Molekülstruktur eindeutige Kennzeichnungen gegeben wurden.In explicit representation, the verifier has 238 a fixed position and orientation in the selected skewed, local coordinate frame 245 , This position and orientation may take the form, for example, of a translation vector T, which is the center of the skewed, local coordinate frame 245 with some fixed point SP along the axis (direction) 217 of the vector 238 (eg one of the endpoints D, G of the vector 238 ), and a rotation matrix R are described. The translation vector T gives the position of the point SP in the oblique, local coordinate frame 245 whereas the rotation matrix R indicates the orientation of the vector 238 in the same oblique, local coordinate frame 245 indicates. Note that the rotation matrix can be equivalently described by listing the lengths of the projections of the vector 238 on the axes i, j and k of the skewed, local coordinate frame 245 , Alternatively, the rotation matrix can be described by listing the angles that the vector 238 with each of the axes i, j and k of the skewed, local coordinate frame 245 forms. In addition, other information, such as the identity of the rotatable bond 218 - in the case that the vector 238 is defined in the form of such a rotatable bond, or the size of the vector 238 to be included in the illustration; this additional information can be used for testing purposes. In this discussion it has been assumed that all labels of the considered molecular structure have been given unique labels.

Die Größe, die Position und Orientierung des Vektors 238 kann kompakt in Matrixform dargestellt weren durch eine leichte Modifikation der homogenen 4 × 4-Transformationsmatrix, die auf dem Gebiet der Computergraphik sehr verbreitet ist. Insbesondere kann die modifizierte Transformationsmatrix, wie das folgende Diagramm zeigt, durch Benutzen der oben erwähnten 3 × 3-Rotationsmatrix, des 3 × 1-Translationsvektors T und der Längen der drei Projektionen des Vektors 238 auf die Achsen i, j und k des schiefwinkligen, lokalen Koordinatenrahmens 245 aufgebaut werden:

Figure 00320001
The size, position and orientation of the vector 238 can be represented compactly in matrix form by a slight modification of the homogeneous 4 × 4 transformation matrix, which is very common in the field of computer graphics. In particular, as shown in the following diagram, the modified transformation matrix can be obtained by using the above-mentioned 3 × 3 rotation matrix, the 3 × 1 translation vector T, and the lengths of the three projections of the vector 238 on the axes i, j and k of the skewed, local coordinate frame 245 being constructed:
Figure 00320001

In der impliziten Darstellung kann die Position und Orientierung des Vektors 238 in dem ausgewählten schiefwinkligen, lokalen Koordinatenrahmen 245 durch Auflisten der identifizierenden Kennzeichnungen der Atomplätze D/G dargestellt werden, die helfen, den Vektor 238 zu definieren; die Kennzeichnungen müssen in der Reihenfolge aufgelistet werden, die die Richtung des zugehörigen Vektors 238 definiert. In dem impliziten Fall wird die Position und Orientierung des Vektors 238 in dem schiefwinkligen, lokalen Koordinatenrahmen 245 aus den Kennzeichnungen der definierenden Atomplätze D, G und der Beschreibung der Molekülstruktur 200 erzeugt, wann immer solche Positions- und Richtungsinformationen benötigt werden. Alle anderen Informationen können, wie das im Fall der expliziten Darstellung erläutert wurde, durch eine On-Line-Berechnung erhalten werden. Daher kann die implizite Darstellung die Speicheranforderungen in dem System 100 verringern.In the implicit representation, the position and orientation of the vector 238 in the selected skewed, local coordinate frame 245 are shown by listing the identifying marks of atomic sites D / G that help the vector 238 define; the labels must be listed in the order that indicates the direction of the associated vector 238 Are defined. In the implicit case, the position and orientation of the vector 238 in the skewed, local coordinate frame 245 from the labels of the defining atomic sites D, G and the description of the molecular structure 200 generated whenever such position and direction information is needed. All other information can be obtained by an on-line calculation, as explained in the case of the explicit presentation. Therefore, the implicit representation may be the memory requirements in the system 100 reduce.

Eine bestimmte, entweder implizite oder explizite Darstellung des Vektors 238 in einem ausgewählten schiefwinkligen, lokalen Koordinatenrahmen 245 genügt, um die Darstellung des Vektors 238 in dem globalen Koordinatenrahmen 235 zu bestimmen.A specific, either implicit or explicit representation of the vector 238 in a selected oblique, local coordinate frame 245 is enough for the representation of the vector 238 in the global coordinate frame 235 to determine.

Wie das oben erwähnt wurde, genügt das Definieren der Koordinaten (x, y, z) von drei oder mehr Atomen (Plätzen) (z.B. G-P) einer bestimmten starren Teilstruktur 220 in dem globalen Koordinatenrahmen 235, einen schiefwinkligen, lokalen Koordinatenrahmen 245 zu definieren als auch eine globale Position und eine globale Richtung für die starre Teilstruktur 220 in dem globalen Koordinatenrahmen 235. Folglich genügt das Definieren der Koordinaten (x, y, z) von drei oder mehr Atomen (Plätzen) (z.B. G-P) einer bestimmten starren Teilstruktur 220 in dem globalen Koordinatenrahmen 235, um die Position und Orientierung des zugehörigen Vektors 238 in dem globalen Koordinatenrahmen 235 zu definieren. Dies wird erreicht, indem man Gebrauch macht von entweder der impliziten oder der expliziten Darstellung des Vektors 238 in dem schiefwinkligen, lokalen Koordinatenrahmen 245 und eine Änderung von Koordinatenrahmen durch bekannte Vektorverfahren auf den globalen Koordinatenrahmen 235 anwendet. In ähnlicher Weise genügt das Definieren der Koordinaten (x, y, z) von drei oder mehr Atomen (Plätzen) (z.B. A-F) einer bestimmten starren Teilstruktur 210 in dem globalen Koordinatenrahmen 235, um die Position und Orientierung des zugehörigen Vektors 238 in dem globalen Koordinatenrahmen 235 zu definieren. Es ist sehr wichtig, zu beachten, daß, wenn der Vektor 238 in Form der rotierbaren Bindung 218 definiert ist, die zwei starre Teilstrukturen 210 und 220 verbindet, die Position und Orientierung des Vektors 238 in dem globalen Koordinatenrahmen, wie er durch einen schiefwinkligen Koordinatenrahmen 245 einer bestimmten Teilstruktur 210 bestimmt ist, identisch mit der Position und Orientierung des Vektors 238 in dem globalen Koordinatenrahmen 235 ist, wie er durch einen schiefwinkligen, lokalen Koordinatenrahmen 245 einer anderen bestimmten Teilstruktur 220 bestimmt ist; beachte auch, daß in diesem besonderen Fall die Position und Orientierung des Vektors 238 in dem globalen Koordinatenrahmen 235 die Position und Orientierung der starren Teilstrukturen an seinen beiden Enden erzwingt, aber sie nicht vollständig spezifiziert: in der Tat hat jede der starren Teilstrukturen (210, 220) einen Freiheitsgrad, nämlich die Fähigkeit, um die Achse des Vektors 238 hinsichtlich der anderen Teilstruktur (220, 210) zu rotieren.As mentioned above, defining the coordinates (x, y, z) of three or more atoms (squares) (eg, GP) of a particular rigid substructure is sufficient 220 in the global coordinate frame 235 , a skewed, local coordinate frame 245 as well as a global position and a global direction for the rigid substructure 220 in the global coordinate frame 235 , Thus, defining the coordinates (x, y, z) of three or more atoms (squares) (eg, GP) of a particular rigid substructure is sufficient 220 in the global coordinate frame 235 to the position and orientation of the associated vector 238 in the global coordinate frame 235 define. This is achieved by making use of either the implicit or the explicit representation of the vector 238 in the skewed, local coordinate frame 245 and a change of coordinate frames to the global coordinate frame by known vector methods 235 applies. Similarly, defining the coordinates (x, y, z) of three or more atoms (squares) (eg, AF) of a particular rigid substructure is sufficient 210 in the global coordinate frame 235 to the position and orientation of the associated vector 238 in the global coordinate frame 235 define. It is very important to note that if the vector 238 in the form of the rotatable bond 218 is defined, the two rigid substructures 210 and 220 connects the position and orientation of the vector 238 in the global coordinate frame, as indicated by a skewed coordinate frame 245 a particular substructure 210 is determined, identical to the position and orientation of the vector 238 in the global coordinate frame 235 is like passing through a skewed, local coordinate frame 245 another particular substructure 220 is determined; Also note that in this particular case, the position and orientation of the vector 238 in the global coordinate frame 235 enforces the position and orientation of the rigid substructures at its two ends, but does not fully specify them: in fact, each of the rigid substructures ( 210 . 220 ) One degree of freedom, namely the ability to move around the axis of the vector 238 with regard to the other substructure ( 220 . 210 ) to rotate.

2B ist ein Diagramm, das eine zweite Molekülform 250 der Molekülstruktur 200, den globalen Koordinatenrahmen 235, den schiefwinkligen, lokalen Koordinatenrahmen 245 und den invarianten Vektor 238 der 2A zeigt. 2 B is a diagram that has a second molecular shape 250 the molecular structure 200 , the global coordinate frame 235 , the oblique, local coordinate frame 245 and the invariant vector 238 of the 2A shows.

Der Ausdruck Konformation wird benutzt, um auf irgendeine Menge möglicher Konfigurationen in dem dreidimensionalen Raum Bezug zu nehmen, die eine bestimmte Molekülstruktur (200, 250) aufgrund einer innewohnenden Strukturelastizität annehmen kann; diese Elastizität ist typischerweise die Folge von rotierbaren und/oder elastischen Bindungen, die in dem Molekül vorhanden sind. Die Analyse hier konzentriert sich nur auf rotierbare Bindungen und nimmt an, daß die gezeigte Strukturelastizität das Ergebnis von Rotationen der starren Teilstrukturen um solche rotierbaren Bindungen ist. Typischerweise gibt es eine unendliche Zahl solcher Konfigurationen, von denen einige energetisch günstiger sind als andere. Ebenso können sterische Betrachtungen die Menge der möglichen Konformationen weiter begrenzen.The term conformation is used to refer to any set of possible configurations in three-dimensional space having a particular molecular structure ( 200 . 250 ) due to inherent structural elasticity; this elasticity is typically the result of rotatable and / or elastic bonds present in the molecule. The analysis here focuses only on rotatable bonds and assumes that the structural elasticity shown is the result of rotations of the rigid substructures around such rotatable bonds. Typically, there are an infinite number of such configurations, some of which are more energy efficient than others. Likewise, steric considerations can further limit the set of possible conformations.

Wie oben beschrieben wurde, bleibt in jeder Konformation 250 der Molekülstruktur 200 die Position und Orientierung der rotierbaren Bindung 218 in Bezug auf einen schiefwinkligen, lokalen Koordinatenrahmen 245 einer Teilstruktur (210, 220) die gleiche (invariant). In ähnlicher Weise bleibt die Position und Orientierung der rotierbaren Bindung 218 in Bezug auf einen schiefwinkligen, lokalen Koordinatenrahmen 245 einer Teilstruktur (210, 220) die gleiche (invariant), wenn die gesamte Molekülstruktur 200 rotiert und in dem globalen Koordinatenrahmen 235 eine Translation erfährt. Dies beruht auf der Tatsache, daß der schiefwinklige, lokale Koordinatenrahmen 245 und die rotierbare Bindung 218 sich stets in einer festen Position und Orientierung in Bezug aufeinander befinden, trotz irgendeiner Rotation 215 der starren Teilstruktur 220 um die rotierbare Bindung 218 und jeder Translationsbewegung 295 und/oder Rotation 290 der gesamten Molekülstruktur 200 oder irgendeiner ihrer Konformationen 250.As described above, it remains in any conformation 250 the molecular structure 200 the position and orientation of the rotatable bond 218 with respect to a skewed, local coordinate frame 245 a substructure ( 210 . 220 ) the same (invariant). Similarly, the position and orientation of the rotatable bond remains 218 with respect to a skewed, local coordinate frame 245 a substructure ( 210 . 220 ) the same (invariant) when the entire molecular structure 200 rotates and in the global coordinate frame 235 undergoes a translation. This is due to the fact that the skewed, local coordinate frame 245 and the rotatable bond 218 always in a fixed position and orientation with respect to each other, despite any rotation 215 the rigid substructure 220 around the rotatable bond 218 and every translation movement 295 and / or rotation 290 the entire molecular structure 200 or any of their conformations 250 ,

Um eine Menge beschreibender Indizes für die Molekülstruktur (200, 250) zu erstellen, müssen Tupel von Atomplätzen (und/oder 'Attrappen'plätzen, unten beschrieben) ausgewählt werden. Diese Tupel können benutzt werden, um schiefwinklige, lokale Koordinatenrahmen 245 zu bilden. Die Tupel haben Tupelattribute, die unter anderem geometrische Merkmale, die Reihenfolge und Vektorbeziehungen einschließen können, die durch die Atomplätze definiert sind, die das Tupel umfassen (siehe die Beschreibung von 3).To get a lot of descriptive indexes for the molecular structure ( 200 . 250 ), tuples of atomic sites (and / or 'dummy' sites, described below) must be selected. These tuples can be used to skew, local coordinate frames 245 to build. The tuples have tuple attributes that can include, among other things, geometric features, the order, and vector relationships defined by the atomic sites that comprise the tuple (see the description of FIG 3 ).

Zusätzlich kann eine Menge oder können mehrere Mengen von Atomplätzen (und/oder 'Attrappen'plätzen), zum Beispiel der Ring K-P, als diese 'Eigenschaften' besitzend in der Molekülstruktur (200, 250) identifiziert werden. Diese Eigenschaften sind spezifisch für die Menge von Atomplätzen K-P und können einschließen: chemische, (z.B. Valenz, Atomgewicht, Atomart usw.) und/oder physikalische (z.B. elektrostatische, hydropathische usw.) Eigenschaften der Menge von Atomplätzen, andere Attribute usw. Im folgenden wird auf diese Mengen von Atomplätzen K-P als auf 'Platzmengen' Bezug genommen.In addition, a set or multiple sets of atoms (and / or 'dummy' sites), for example the ring KP, may be considered as having these 'properties' in the molecular structure ( 200 . 250 ) be identified. These properties are specific to the set of atomic sites KP and may include: chemical (eg, valence, atomic weight, atomic type, etc.) and / or physical (eg, electrostatic, hydropathic, etc.) properties of the set of atomic sites, other attributes, etc. In the following these quantities of atomic sites KP are referred to as 'amounts of space'.

Wenn daher einer oder mehrere der Atomplätze, die an einem Tupel teilhaben, auch ein Glied einer oder mehrerer der Platzmengen ist, können die Eigenschaften der Platzmengen, von denen der Atomplatz in dem ausgewählten Tupel ein Glied ist, auch dem Tupel zugeordnet werden. Daher können diese Eigenschaften benutzt werden, um den Index zu erhöhen, der von dem Tupel abgeleitet wird, und um ihn beschreibender zu machen.If therefore one or more of the atomic sites that participate in a tuple, is also a member of one or more of the amounts of space, the Properties of the amounts of space, of which the atomic place in the selected tuple a limb is also assigned to the tuple. Therefore, these can Properties used to increase the index that derived from the tuple, and to make it more descriptive.

Die Position und Orientierung des Vektors 238 wird in jedem der schiefwinkligen, lokalen Koordinatenrahmen 245 dargestellt. Die Darstellung des Vektors 238, der in jedem der schiefwinkligen, lokalen Koordinatenrahmen 245 invariant ist, wird über eine Datenstruktur (siehe die Beschreibungen der 4 und 5 unten) dem Index zugeordnet, der von dem Tupel abgeleitet wird. 3 ist eine Folge von Zeichnungen, die zeigen, wie die Platzmengen K-O definiert sind (3A), Attrappenplätze Du definiert sind und dann benutzt werden (3B) und wie Tupel (typisch 335, 345, 355) definiert werden durch Auswählen einer Menge eines oder mehrerer der Atomplätze und/oder Attrappenplätze Du aus der Molekülstruktur 200. Jedes Tupel (335, 345, 355) wird benutzt, um einen speziellen schiefwinkligen, lokalen Koordinatenrahmen 245 zu definieren.The position and orientation of the vector 238 is in each of the skewed, local coordinate frames 245 shown. The representation of the vector 238 which is in each of the skewed, local coordinate frames 245 is invariant, is a data structure (see the descriptions of the 4 and 5 below) associated with the index derived from the tuple. 3 is a sequence of drawings that show how the sets KO are defined ( 3A ), Dummy places you are defined and then used ( 3B ) and like tuples (typical 335 . 345 . 355 ) by selecting a set of one or more of the atomic sites and / or dummy sites you define from the molecular structure 200 , Every tuple ( 335 . 345 . 355 ) is used to create a special skewed, local coordinate frame 245 define.

Eine Platzmenge ist eine Menge, die einen oder mehrere Atomplätze und/oder einen oder mehrere der Attrappenplätze der Molekülstruktur 200 umfaßt. Ein Beispiel einer Platzmenge könnte eine gemeinsam auftretende Struktur (z.B. ein Phenylring oder der Ring K-O) in einer Datenbank D mit Molekülstrukturen 200 sein. Es ist bisweilen nützlich, solch eine Struktur durch einen einzigen Attrappenplatz Du zu ersetzen. Ein alternativer Weg des Definierens einer Platzmenge besteht darin, Atome auszuwählen, die an einer gemeinsamen Menge von Eigenschaften und/oder Attributen teilhaben. Zum Beispiel könnte man eine Platzmenge durch Sammeln all der Atomplätze bilden, die an einem aromatischen Ring teilhaben. Eine andere Platzmenge könnte durch Sammeln all derjenigen Plätze gebildet werden, die als Hydrogen-Donatoren (bzw. Akzeptoren) wirken. Diese Platzmengen können auch durch eine Attrappeneinheit ersetzt werden, in welchem Fall die Attrappeneinheit alle die Eigenschaften der Platzmenge erbt, die ersetzt wird. Zum Beispiel ist in 3A die Platzmenge K-O an den Atomplatz P gebunden. Wenn die Platzmenge K-O durch die Attrappeneinheit Du (3B) ersetzt wird, ist es die Attrappeneinheit, die jetzt an den Atomplatz P anstelle der Platzmenge K-O gebunden wird. Zusätzlich wird, wenn die Platzmenge K-O Eigenschaften (z.B. Hydropathie, ein bestimmtes elektrostatisches Verhalten usw.) aufweist, die Attrappeneinheit Du diese Eigenschaften auch erben.An amount of space is an amount that contains one or more atomic sites and / or one or more of the dummy sites of the molecular structure 200 includes. An example of an amount of space could be a co-occurring structure (eg, a phenyl ring or the ring KO) in a database D with molecular structures 200 be. It is sometimes useful to replace such a structure with a single dummy space. An alternative way of defining an amount of space is to select atoms that share a common set of properties and / or attributes. For example, one might build up an amount of space by collecting all the atomic sites that participate in an aromatic ring. Another amount of space could be formed by collecting all those sites that act as hydrogen donors (or acceptors). These sets of spaces can also be replaced by a dummy unit, in which case the dummy unit will inherit all the features of the amount of space that is being replaced. For example, in 3A the amount of space KO bound to the atomic place P If the amount of space KO through the dummy unit Du ( 3B ), it is the dummy unit that is now tied to the atomic place P instead of the space amount KO. In addition, if the amount of space KO has properties (eg, hydropathy, a certain electrostatic behavior, etc.), the dummy unit you will inherit these properties as well.

Ein Tupel ist eine Menge eines oder mehrerer Atomplätze und/oder eines oder mehrerer Attrappenplätze. Tupel, die nur einen Atom- oder Attrappenplatz) umfassen, sind beim Beschreiben von Translationen 295 einer starren Struktur nützlich. In solchen Fällen kann das Bestimmen von Informationen über die Rotation 290 eine zusätzliche Rechenlast aufbürden. Darüberhinaus können die Informationen für das Erstellen von Indizes auf die Eigenschaften des einzelnen Atom- (oder Attrappen)platzes in dem Tupel begrenzt sein. In ähnlicher Weise sind Tupel, die nur zwei Atom- (oder Attrappen)plätze umfassen, beim Beschreiben von Translationen 295 einer starren Struktur nützlich, und sie erzwingen auch die Rotation 290 in zwei Freiheitsgraden, spezifizieren aber die Rotation nicht völlig: das Bestimmen der Informationen über die Rotation 290 lädt eine zusätzliche Rechenbürde auf. In diesem Fall können die Informationen für das Erstellen der Indizes auf die Eigenschaften der beiden Atom- oder Attrappen)plätze in dem Tupel begrenzt werden.A tuple is a set of one or more atomic sites and / or one or more dummy sites. Tuples that span only one atomic or dummy space) are in describing translations 295 a rigid structure useful. In such cases, determining information about the rotation 290 put an additional burden on the calculation. In addition, the information for creating indexes may be limited to the properties of each atomic (or dummy) space in the tuple. Similarly, tuples involving only two atomic (or dummy) sites are in describing translations 295 a rigid structure useful, and they also force the rotation 290 in two degrees of freedom, but do not completely specify the rotation: determining the information about the rotation 290 charges an additional work burden. In this case, the information for creating the indices may be limited to the properties of the two atomic or dummy locations in the tuple.

Bei dem bevorzugten Ausführungsbeispiel sind Tupel definiert, die drei oder mehr Atom- (und/oder Attrappen)plätze benutzen. Bei einem bevorzugteren Ausführungsbeispiel sind zumindest drei Atom- (und/oder Attrappen)plätze des Tupels nichtkollinear. Die Tupel werden benutzt, um einen schiefwinkligen, lokalen Koordinatenrahmen 245 (wie oben beschrieben) und einen Index zu definieren. Wenn das Tupel vier Atom- (und/oder Attrappen)plätze umfaßt, von denen drei beliebige nichtkollinear sind, dann kann das (oben beschriebene) Kreuzprodukt i × j durch den Vektor ersetzt werden, der den Ursprung des schiefwinkligen, lokalen Koordinatenrahmens 245 mit dem vierten Platz verbindet.In the preferred embodiment, tuples are defined that use three or more atomic (and / or dummy) locations. In a more preferred embodiment, at least three atomic (and / or dummy) sites of the tuple are non-collinear. The tuples are used to create a skewed, local coordinate frame 245 (as described above) and define an index. If the tuple comprises four atom (and / or dummy) locations, three of which are any non-collinear, then the cross product ixj (described above) may be replaced by the vector representing the origin of the skewed, local coordinate frame 245 connects to the fourth place.

Beachte, daß vier oder mehr Atom- (und/oder Attrappen)plätze benutzt werden können. In diesem Fall können beliebige drei nichtkollineare Atom- (und/oder Attrappen)plätze ausgebildet werden, um den schiefwinkligen, lokalen Koordinatenrahmen 245 zu bestimmen, wogegen die restlichen Atom- (und/oder Attrappen)plätze benutzt werden können, um die während der Vergleichsstufe des Verfahrens erzeugten Hypothesen weiter zu beschränken. Siehe die Beschreibung der 6 unten.Note that four or more atomic (and / or dummy) locations can be used. In this case, any three non-collinear atomic (and / or dummy) locations may be formed around the skewed, local coordinate frame 245 whereas the remaining atomic (and / or dummy) sites can be used to further constrain the hypotheses generated during the comparison stage of the process. See the description of 6 below.

Beachte, daß keine, einige oder alle dieser Attribute und Eigenschaften benutzt werden können, um eine Zahl (Index) zu bilden, die die gebildeten Dreiecke, die den Tupeln entsprechen, eindeutig beschreibt.Note that no, some or all of these attributes and properties are used can, to form a number (index) representing the formed triangles, the match the tuples, clearly describes.

Der Vektor 238 ist starr in dem schiefwinkligen, lokalen Koordinatenrahmen 245 plaziert wie oben beschrieben. Der Vektor 238 wird dann (implizit oder explizit wie oben beschrieben) in dem schiefwinkligen, lokalen Koordinatenrahmen 245 des gebildeten Dreiecks dargestellt.The vector 238 is rigid in the skewed, local coordinate frame 245 placed as described above. The vector 238 is then (implicitly or explicitly as described above) in the oblique, lo scale coordinate frame 245 represented the formed triangle.

Tupel werden während der Durchführung von zwei Prozessen gebildet, die in dieser Erfindung enthalten sind. Ein Referenz-Speicherungsprozeß (siehe 5) und ein Vergleichsprozeß (siehe 6). In dem Referenz-Speicherungsprozeß werden Tupel durch Auswählen von Atom- (und/oder Attrappen)plätzen aus der Molekülstruktur (200, 250) gebildet. Während des Referenz-Speicherungsprozesses werden die Tupel durch Auswählen einer Menge von Atom- (und/oder Attrappen)plätzen gebildet, die als 'Referenztupel-Auswahlmenge' bezeichnet wird. Die Referenztupel-Auswahlmenge schließt alle die Atomplätze in einer starren Teilstruktur (210, 220) ein, alle die Attrappenplätze, die einer starren Teilstruktur (210, 220) zugeordnet sind, und die Atom- (und/oder Attrappen)plätze, die Endpunkte irgendeiner rotierbaren Bindung 218 sind, die mit der gegebenen starren Teilstruktur (210, 220) verbunden, aber nicht in der Teilstruktur (210, 220) eingeschlossen ist. Die Referenztupel-Auswahlmenge schließt diese Atom- (und/oder Attrappen)plätze ein, weil Tupel, die einen oder mehrere dieser Plätze umfassen, trotz der Rotation 215 um irgendeine rotierbare Bindung 218 invariant bleiben. Das liegt, wie oben erklärt, daran, daß die Position und Orientierung der rotierbaren Bindung 218 im Hinblick auf den schiefwinkligen, lokalen Koordinatenrahmen 245, der das Tupel definiert, die gleiche bleibt (invariant), wenn die starre Teilstruktur 220 hinsichtlich der starren Teilstruktur 210 rotiert. Beachte weiter, daß die Position und Orientierung der rotierbaren Bindung 218 in dem schiefwinkligen, lokalen Koordinatenrahmen 245, den das Tupel definiert, trotz einer beliebigen Rotation 290 und Translation 295 der Molekülstruktur (200, 250) invariant ist. Bei einem bevorzugten Ausführungsbeispiel können die Tupel aus einer geeigneten Teilmenge der Referenztupel-Auswahlmenge, die gerade definiert wurde, ausgewählt werden.Tuples are formed while performing two processes included in this invention. A reference storage process (see 5 ) and a comparison process (see 6 ). In the reference storage process, tuples are selected by selecting atomic (and / or dummy) sites from the molecular structure ( 200 . 250 ) educated. During the reference storage process, the tuples are formed by selecting a set of atomic (and / or dummy) locations, referred to as a 'reference tuple selection set'. The reference tuple selection set includes all the atomic places in a rigid substructure ( 210 . 220 ), all the dummy locations that are part of a rigid substructure ( 210 . 220 ), and the atomic (and / or dummy) sites, the endpoints of any rotatable bond 218 are with the given rigid substructure ( 210 . 220 ), but not in the substructure ( 210 . 220 ) is included. The reference tuple selection set includes these atomic (and / or dummy) locations because tuples involving one or more of these locations, despite the rotation 215 about any rotatable bond 218 remain invariant. This is because, as explained above, the position and orientation of the rotatable bond 218 with regard to the skewed, local coordinate frame 245 that defines the tuple, the same remains (invariant) when the rigid substructure 220 with regard to the rigid substructure 210 rotates. Note further that the position and orientation of the rotatable bond 218 in the skewed, local coordinate frame 245 the tuple defines, despite any rotation 290 and translation 295 the molecular structure ( 200 . 250 ) is invariant. In a preferred embodiment, the tuples may be selected from an appropriate subset of the reference tuple selection set that has just been defined.

Während des Vergleichstestprozesses werden die Tupel durch Auswählen aus einer Menge von Atom- (und/oder Attrappen)plätzen gebildet, die als 'Vergleichstupel-Auswahlmenge' bezeichnet wird. Anders als die Referenztupel-Auswahlmenge könnte die Vergleichstupel-Auswahlmenge alle die Atom- (und/oder Attrappen)plätze der gesamten Molekülstruktur (200, 250) einschließen. Bei einem alternativen Ausführungsbeispiel können Teilmengen all dieser Plätze benutzt werden, um die Vergleichstupel-Auswahlmenge zu bilden. Bei einem bevorzugten Ausführungsbeispiel schließen die Atomplätze sowohl bei der Referenztupel-Auswahl als auch bei der Vergleichstupel-Auswahl nicht die Atom- (und/oder Attrappen)plätze ein, die zu weit voneinander entfernt sind (z.B. mehr als 10 Angström entfernt).During the comparison test process, the tuples are formed by selecting from a set of atomic (and / or dummy) locations, referred to as the 'comparative tuple selection set'. Unlike the reference tuple selection set, the comparison tuple selection set could include all the atomic (and / or dummy) sites of the entire molecular structure ( 200 . 250 ) lock in. In an alternative embodiment, subsets of all of these locations may be used to form the comparison tuple selection set. In a preferred embodiment, the atomic sites in both the reference tuple selection and the comparative tuple selection do not include the atomic (and / or dummy) sites that are too far apart (eg, more than 10 angstroms away).

Die Erfindung erstellt eine Vielfalt von Tupeln sowohl in dem Prozeß zur Referenzspeicherung 500 als auch zum Vergleichstest. Bei einem bevorzugten Ausführungsbeispiel werden so viele Tupel als möglich durch Benutzen der Referenztupel-Auswahlmenge (oder der Vergleichstupel-Auswahlmenge) erstellt. Bei einem anderen bevorzugten Ausführungsbeispiel werden alle möglichen Tupel erstellt, die in diesen Tupel-Auswahlmengen enthalten sind. Bei einem anderen bevorzugten Ausführungsbeispiel werden alle möglichen Tupel unter Ausschluß redundanter Permutationen der Tupelmitglieder erstellt, die in diesen Tupel-Auswahlmengen enthalten sind.The invention creates a variety of tuples in both the reference storage process 500 as well as for the comparison test. In a preferred embodiment, as many tuples as possible are created by using the reference tuple selection set (or the comparative tuple selection set). In another preferred embodiment, all possible tuples are included that are included in these tuple selection sets. In another preferred embodiment, all possible tuples are made excluding redundant permutations of the tuple members included in these tuple selection sets.

3C ist eine Darstellung der Teilstruktur 220 mit einer damit verbundenen rotierbaren Bindung 218 und der Ringstruktur K-O, die durch den Attrappenplatz Du dargestellt ist. Ein Tupel 335 wird gebildet durch Auswählen von drei Atomplätzen H, I, J aus der Referenztupel-Auswahlmenge, die die Menge von Atomplätzen D, G, H, I, J, P und den Attrappenplatz Du einschließt. Das Tupel 335 definiert ein Dreieck 336 mit Attributen, die einschließen: geometrische Merkmale, (z.B. die Länge der drei Seiten des Dreiecks 336, die Winkel des Dreiecks 336, den Umfang des Dreiecks 336 usw.), Reihenfolgeinformationen, (die durch Vereinbarung in der Reihenfolge, in der die Plätze ausgewählt werden, enthalten sind), Vektorinformationen usw. Wenn zum Beispiel die Atomplätze in der Reihenfolge H, I, J ausgewählt werden, ist der Vektor i (siehe Diskussion oben) definiert als i = H → I, und der Vektor j (siehe Diskussion oben) ist definiert als j = H → J; diese Vereinbarung wird durchgehend in dem beschriebenen Prozeß benutzt. Andere Vereinbarungen sind möglich. Wenn alternativ die Atomplätze in der Reihenfolge I, H, J ausgewählt werden, ist der Vektor i (siehe Diskussion oben) definiert als i = I → H und der Vektor j (siehe Diskussion oben) ist definiert als j = I → J. In beiden Fällen ist der Vektor k definiert als k = i × j, wie oben beschrieben, und die Vektoren i, j, k definieren den schiefwinkligen, lokalen Koordinatenrahmen 245, der dem Tupel 335 zugeordnet ist. 3C is a representation of the substructure 220 with an associated rotatable bond 218 and the ring structure KO represented by the dummy place Du. A tuple 335 is formed by selecting three atomic sites H, I, J from the reference tuple selection set, which includes the set of atomic sites D, G, H, I, J, P and the dummy space Du. The tuple 335 defines a triangle 336 with attributes that include: geometric features, (eg the length of the three sides of the triangle 336 , the angles of the triangle 336 , the circumference of the triangle 336 etc.), order information (included by agreement in the order in which the locations are selected), vector information, etc. When, for example, the atomic locations are selected in the order H, I, J, the vector i (see FIG Discussion above) defined as i = H → I, and the vector j (see discussion above) is defined as j = H → J; this agreement is used throughout the process described. Other agreements are possible. Alternatively, if the atom sites are selected in the order I, H, J, the vector i (see discussion above) is defined as i = I → H and the vector j (see discussion above) is defined as j = I → J. In In both cases, the vector k is defined as k = i × j, as described above, and the vectors i, j, k define the skewed, local coordinate frame 245 that's the tuple 335 assigned.

Wenn eine bestimmte Anzahl von z.B. 3 Atomplätzen aus der Referenztupel-Auswahlmenge ausgewählt wird, sind mehr als eine Tupelreihenfolge möglich. Mit anderen Worten können die ausgewählten Plätze, die das Tupel bilden, permutiert werden, um andere Tupel zu erstellen. Zum Beispiel können die ausgewählten Atomplätze H, I, J Tupel 335 wie folgt bilden: H-I-J, H-J-I, I-H-J, I-J-H, J-I-H und J-H-I. Im allgemeinen ist die Anzahl der geordneten Tupel, die durch Auswählen von k Plätzen aus einer Referenztupel-Auswahlmenge, die l Plätze enthält, erstellt werden kann, gegeben durch l!/(l – k)!.When a certain number of, for example, 3 atomic sites are selected from the reference tuple selection set, more than one tuple order is possible. In other words, the selected sites that make up the tuple can be permuted to create other tuples. For example, the selected atomic sites H, I, J may be tuples 335 as follows: HIJ, HJI, IHJ, IJH, JIH and JHI. In general, the number of ordered tuples that can be created by selecting k places from a reference tuple selection set containing 1 places given by 1! / (1-k)!

Jedoch definieren Tupel 335, die Permutationen voneinander sind, die gleichen geometrischen Eigenschaften, z.B. die Längen der Seiten des Dreiecks 336 usw. Daher sind in einigen bevorzugten Ausführungsbeispielen redundante Permutationen einer gegebenen Anzahl von Plätzen, die ein Tupel bilden, nicht notwendig. Dies deshalb, weil alle Permutationen eines bestimmten Tupels 335 die gleiche Menge von Atomplätzen umfassen und daher die gleichen geometrischen Merkmale und Vektorinformationen tragen.However, tuples define 335 which are permutations of each other, the same geometric properties, eg the lengths of the sides of the triangle 336 etc. Therefore, in some preferred embodiments, redundant permutations of a given number of sites forming a tuple are not necessary. This is because all permutations of a particular tuple 335 comprise the same set of atomic sites and therefore bear the same geometric features and vector information.

Reihenfolgeinformationen können auch gewonnen werden, wenn eine Reihenfolgevereinbarung auferlegt wird: alle Permutationen eines bestimmten Tupels 335 können aus einer einzigen normalisierten Form des Tupels 335 durch Benutzen der Reihenfolgevereinbarung erzeugt werden. Daher genügt es, nur reihenfolgeunabhängige Kombinationen von Atomplätzen der Molekülstruktur (200, 250) zu betrachten; die Anzahl von möglichen (reihenfolgeunabhängigen) Kombinationen, die durch Auswählen von k Plätzen aus einer Referenztupel-Auswahlmenge erstellt werden können, die l Plätze enthält, ist gegeben durch l!/(k!(l – k)!), was um den Faktor k! kleiner ist als die Anzahl geordneter Tupel. Daher werden die Speicheranforderungen um den gleichen Faktor verringert bei einer minimalen Zunahme der Rechenkosten, die benötigt werden, um die notwendigen Buchführungsvorgänge auszuführen.Order information can also be obtained when an ordering agreement is imposed: all permutations of a particular tuple 335 can be from a single normalized form of the tuple 335 be generated by using the order agreement. Therefore, it is sufficient to use only sequence-independent combinations of atomic sites of molecular structure ( 200 . 250 ) consider; the number of possible (order-independent) combinations that can be created by selecting k places from a reference tuple selection set containing 1 places is given by 1! / (k! (1-k)!), which is by the factor k! smaller than the number of ordered tuples. Therefore, the memory requirements are reduced by the same factor with a minimal increase in the computational costs needed to perform the necessary accounting operations.

Der Prozeß des Auswählens eines einzelnen, repräsentativen, reihenfolgeunabhängigen Tupels (= eine Kombination) wird 'Normalisierung' genannt. Normalisierung schließt das Bestimmen einer eindeutigen Reihenfolge ein, wenn eine Menge von Atomplätzen gegeben ist; die auferlegte Reihenfolge ist unabhängig von der Reihenfolge, in der die Atomplätze gegeben sind. Dies geschieht durch Auferlegen einer Reihenfolgevereinbarung, um ein einzelnes, repräsentatives, 'normalisiertes' Tupel aus einer bestimmten Menge von Atomplätzen auszuwählen. Die Atomplätze werden gemäß einer bevorzugen Reihenfolgevereinbarung geordnet, indem zuerst die faktischen Längen der Seiten der Form bestimmt werden, die durch das Verbinden der ausgewählten Plätze gebildet wird. Andere Reihenfolgevereinbarungen sind auch möglich. Der erste und zweite Platz in der Reihenfolge sind diejenigen Plätze, die am weitesten entfernt sind und die längstmögliche Seite eines Polygons bilden, das jeden der ausgewählten Plätze als einen Scheitelpunkt aufweist. Der dritte Platz in der Reihenfolge ist der Platz, der am weitesten von jedem der beiden ersten Plätze entfernt ist und die nächstlängste Seite des Polygons bildet. Der zweite Platz in der Reihenfolge wird dann der Platz an dem Scheitelpunkt, an dem die beiden früher gebildeten Seiten sich schneiden. Der erste Platz in der Reihenfolge wird dann der andere Platz an der längstmöglichen Seite. Das Ordnen geht weiter durch Auswählen des vierten Platzes als desjenigen verbleibenden Atomplatzes, der die weiteste Entfernung von dem dritten Platz hat, des fünften Platzes als des verbleibenden Atomplatzes, der der am weitesten von dem vierten Platz entfernte ist usw., bis alle Plätze des Tupels 335 geordnet sind.The process of selecting a single, representative, order-independent tuple (= combination) is called 'normalization'. Normalization involves determining a unique order, given a set of Atoms; the order imposed is independent of the order in which the atomic sites are given. This is done by imposing an ordering agreement to select a single, representative, 'normalized' tuple from a particular set of atomic sites. The atomic locations are ordered according to a preferred order arrangement by first determining the actual lengths of the sides of the form formed by connecting the selected places. Other order agreements are also possible. The first and second places in the order are those places furthest away and forming the longest possible side of a polygon having each of the selected places as a vertex. The third place in the order is the space furthest from each of the first two squares and forming the next longest side of the polygon. The second place in the order then becomes the place at the vertex where the two previously formed sides intersect. The first place in the order then becomes the other place on the longest possible side. The ordering proceeds by selecting the fourth place as the remaining atomic place having the farthest distance from the third place, the fifth place as the remaining atomic place farthest from the fourth place, and so on until all the places of the tuple 335 are ordered.

Zum Beispiel kann unter Benutzung eines Tupels 335 von drei Atomplätzen H, I, und J ein Dreieck 336 gebildet werden, dessen Seiten gemäß der oben beschriebenen Reihenfolgevereinbarung geordnet sind. Um dies zu tun, bildet die längste Entfernung I-J zwischen irgend zwei der Plätze H, I, J die längste Seite des Dreiecks 336. Die zweite Seite ist durch die größte Entfernung von entweder I oder J zu dem verbleibenden Platz H bestimmt. In diesem Fall ist dies die Entfernung I-H. Folglich ist I der zweite Platz in der Reihenfolge, da er sich an dem Scheitelpunkt befindet, der I-J und I-H gemeinsam ist; der erste Platz in der Reihenfolge ist J, der der andere Scheitelpunkt auf der längsten Seite ist; und der dritte Platz in der Reihenfolge wird der allein verbleibende Platz H.For example, using a tuple 335 of three atoms H, I, and J a triangle 336 whose pages are arranged according to the order of arrangement described above. To do this, the longest distance IJ between any two of the places H, I, J forms the longest side of the triangle 336 , The second side is determined by the greatest distance from either I or J to the remaining H space. In this case, this is the distance IH. Thus, I is the second place in the order since it is at the vertex that is IJ and IH in common; the first place in the order is J, which is the other vertex on the longest side; and the third place in the order becomes the only remaining place H.

Beachte, daß Verbesserungen der Vereinbarung notwendig sind, um irgendwelche vorhandenen Symmetrien in dem Polygon zu brechen. Zum Beispiel kann, wenn die Seiten I-H und I-J von gleicher Länge sind, die Reihenfolge nicht auf der Entfernung allein gegründet werden, sondern andere Kriterien sollten benutzt werden. Diese Kriterien könnten auf anderen Attributen des Tupels gegründet werden, wie z.B. die Ordnungszahlen der Atome an den Plätzen, chemische Eigenschaften usw. Zum Beispiel würde in dem Fall, in dem I-H und I-J von gleicher Länge sind, der Atomplatz I der zweite in der Reihenfolge sein, da er der Scheitelpunkt ist, der der längsten und der zweitlängsten Seite (gleiche Seiten) gemeinsam ist. Jedoch ist die Reihenfolge der Atomplätze J und H unklar und kann zum Beispiel durch Auswählen desjenigen Platzes aus J und H mit der höchsten Ordnungszahl als der erste Platz in der Reihenfolge ausgewählt werden. Ähnliche Betrachtungen könnten in dem Fall benutzt werden, indem das Dreieck 336 gleichseitig ist.Note that improvements to the agreement are necessary to break any existing symmetries in the polygon. For example, if the pages IH and IJ are of equal length, the order can not be based on the distance alone, but other criteria should be used. These criteria could be based on other attributes of the tuple, such as the ordinal numbers of the atoms in the sites, chemical properties, etc. For example, in the case where IH and IJ are of equal length, the atomic site I would be the second in order since it is the vertex common to the longest and the second longest side (same sides). However, the order of the atomic places J and H is unclear and can be selected, for example, by selecting the place of J and H having the highest ordinal number as the first place in the order. Similar considerations could be used in the case by the triangle 336 is equilateral.

Nachdem das Tupel 335 einmal normalisiert ist, wie oben beschrieben, wird ein eindeutiger Index gebildet, der das Tupel 335 repräsentiert. Dieser Index kann erstellt werden durch Benutzen irgendeiner Anzahl geometrischer Merkmale, Attribute der Plätze des Tupels, chemische und/oder physikalische Informationen des Tupels oder der Atomplätze des Tupels usw. Zum Beispiel werde angenommen, daß der Atomplatz J ein zweifach gebundenes Stickstoffatom ist, I ein einfach gebundenes Kohlenstoffatom ist und der Atomplatz H ein zweifach gebundenes Kohlenstoffatom ist. Weiter ist zu beachten, daß das Dreieck 336 eine längste Seite der Länge l1, eine zweitlängste Seite der Länge l2 und eine dritte Seite der Länge l3 Besitzt, In ähnlicher Weise besitzt das Dreieck 336 die Winkel Θ1, Θ2 und Θ3, die den geordneten Atomplätzen J, I, und H entsprechen. Mit diesen Informationen kann ein eindeutiger Index, der dieses Tupel J-I-H beschreibt, gebildet werden unter Benutzung von keiner oder mehreren der Seiten l1-l3, keinem oder mehreren der Winkel Θ1-Θ3, keiner oder mehreren der Bezeichnungen der Bindungsart (einfach gebunden, doppelt gebunden usw.), keiner oder mehreren der chemischen Arten (Stickstoff, Kohlenstoff usw.) und/oder keinem oder mehreren der physikalischen Attribute (Atomgewicht der Atome an den Plätzen, Elektronegativität usw.) usw. Bei einem bevorzugten Ausführungsbeispiel wird der Index gebildet durch Benutzen der Längen l1, l2, des Winkels Θ2 und der Atomart des Atoms an dem zweiten Platz in der Reihenfolge. Bei anderen Ausführungsbeispielen kann es erwünscht sein, Indizes zu bilden, wenn und nur wenn die Längen l1 und/oder l2 einen bestimmten Schwellwert überschreiten und/oder der Winkel Θ2 einen bestimmten Schwellwert überschreitet; typische Schwellwerte können sein 1 Angström für den Betrag der Länge und 10 Grad für die Winkelgröße. Schließlich kann es gelegentlich erwünscht sein, den Index durch Benutzen der Längen l1, l2 und des größten Winkels in dem Dreieck 336, das durch das Tupel gebildet wird, zu bilden.After the tuple 335 Once normalized, as described above, a unique index is formed, which is the tuple 335 represents. This index can be constructed by using any number of geometric features, attributes of the tuple's locations, chemical and / or physical information of the tuple or atomic sites of the tuple, etc. For example, suppose that the atomic site J is a doubly bonded nitrogen atom is a single-bonded carbon atom and the atomic site H is a double-bonded carbon atom. Next, note that the triangle 336 a longest side of the Length l1, a second longest side of length l2 and a third side of length l3 Owned, similarly possesses the triangle 336 the angles Θ1, Θ2, and Θ3 corresponding to the ordered atomic sites J, I, and H. With this information, a unique index describing this tuple JIH may be formed using one or more of the pages l1-l3, none or more of the angles Θ1-Θ3, any one or more of the terms of the binding type (single bound, double bound etc.), none or more of the chemical species (nitrogen, carbon, etc.) and / or any one or more of the physical attributes (atomic weight of the atoms in the sites, electronegativity, etc.), etc. In a preferred embodiment, the index is formed by use the lengths l1, l2, the angle Θ2 and the atomic type of the atom in the second place in the order. In other embodiments, it may be desirable to form indices if and only if the lengths l1 and / or l2 exceed a certain threshold and / or the angle Θ2 exceeds a certain threshold; Typical thresholds can be 1 angstrom for the amount of length and 10 degrees for the angle size. Finally, it may occasionally be desirable to use the index by using lengths l1, l2 and the largest angle in the triangle 336 formed by the tuple to form.

Die obige Diskussion vorausgesetzt werden diese Tupel erstellt, indem man Gebrauch macht von der Referenztupel-Auswahlmenge während des Referenz-Speicherungsprozesses 500 und der Vergleichstupel-Auswahlmenge während des Vergleichsprozesses 600. Bei einem bevorzugten Ausführungsbeispiel wird jede mögliche Kombination von Mitgliedsplätzen in entweder der Referenztupel-Auswahlmenge oder der Vergleichstupel-Auswahlmenge gebildet. Bei alternativen Ausführungsbeispielen können weniger Tupel gebildet werden. Zum Beispiel wird in 3D ein Tupel 345 durch die Atomplätze I, J und den Attrappenplatz Du gebildet. Dieses Tupel wird normalisiert wie oben erklärt, und der entsprechende eindeutige Index wird erstellt. In ähnlicher Weise wird jedes andere mögliche Tupel, typischerweise 355 (DGI) in 3E gebildet, normalisiert, und es wird ein Index erstellt. Beachte, daß jeder der Indizes für das zugehörige Tupel eindeutig und invariant ist bei der Translation 295 und den Rotationen 290 der Molekülstruktur (200, 250) und irgendwelchen Rotationen 215 jeder der beiden Molekülteilstrukturen (210, 220) um irgendeine rotierbare Bindung 218.Given the discussion above, these tuples are created by making use of the reference tuple selection set during the reference storage process 500 and the comparison tuple selection set during the comparison process 600 , In a preferred embodiment, each possible combination of member seats is formed in either the reference tuple selection set or the comparison tuple selection set. In alternative embodiments, fewer tuples may be formed. For example, in 3D a tuple 345 formed by the atomic sites I, J and the dummy place Du. This tuple is normalized as explained above and the corresponding unique index is created. Similarly, any other possible tuple will, typically 355 (DGI) in 3E formed, normalized, and an index is created. Note that each of the indices for the associated tuple is unique and invariant in translation 295 and the rotations 290 the molecular structure ( 200 . 250 ) and any rotations 215 each of the two partial molecular structures ( 210 . 220 ) about any rotatable bond 218 ,

Zusätzlich wird für jedes gebildete Tupel (335, 345, 355) ein schiefwinkliger, lokaler Koordinatenrahmen 245, der dem Tupel zugeordnet ist, in der oben beschriebenen Weise abgeleitet. Vektorinformationen sind mit jedem Vektor 238 verbunden und werden in jedem der schiefwinkligen, lokalen Koordinatenrahmen 245 dargestellt. Daher sind die Vektorinformationen, die Identität der Molekülstruktur 200, die Identitäten der Molekülteilstrukturen (210, 220), die Identität der rotierbaren Bindung 218, der Index 414, das Tupel 335 und der schiefwinklige, lokale Koordinatenrahmen 245 alle einander zugeordnet.In addition, for each tuple formed ( 335 . 345 . 355 ) a skewed, local coordinate frame 245 , which is associated with the tuple, derived in the manner described above. Vector information is with every vector 238 connected and in each of the skewed, local coordinate frames 245 shown. Therefore, the vector information is the identity of the molecular structure 200 , the identities of the partial molecular structures ( 210 . 220 ), the identity of the rotatable bond 218 , the index 414 , the tuple 335 and the skewed, local coordinate frame 245 all assigned to each other.

Vektorinformationen sind Informationen über einen bestimmten Vektor 238 und umfassen die Darstellung des Vektors in dem schiefwinkligen, lokalen Koordinatenrahmen 245. Bei einem bevorzugten Ausführungsbeispiel sind diese Vektorinformationen die explizite und/oder implizite Darstellung der rotierbaren Bindung 218, wie oben beschrieben (2A).Vector information is information about a particular vector 238 and include the representation of the vector in the skewed, local coordinate frame 245 , In a preferred embodiment, this vector information is the explicit and / or implicit representation of the rotatable bond 218 , as described above ( 2A ).

Beachte, daß ein ausgewähltes Tupel 335 und das zugehörige, gebildete Dreieck 336 auch in einer anderen als der Molekülstruktur 200 erscheinen können. Dies macht die Verbesserung der Vektorinformationen unter Einschluß der oben beschriebenen Molekülstruktur notwendig. Dies erlaubt es, die einzelne Molekülstruktur 200, der die Vektorinformationen entsprechen, zu identifizieren.Note that a selected tuple 335 and the associated educated triangle 336 also in another than the molecular structure 200 can appear. This necessitates the improvement of the vector information including the above-described molecular structure. This allows the single molecular structure 200 to identify the vector information.

4 ist ein Blockdiagramm einer Datenstruktur 400, die einen Index 414, der einem Tupel entspricht (typischerweise 335, 345, 355), Informationen über die Identitäten der Atomplätze zuordnet, die an dem Tupel teilhaben, und Informationen, die der Darstellung 238A des Vektors 238 in dem schiefwinkligen, lokalen Koordinatenrahmen 245 des Tupels entsprechen, das den Index 414 erzeugt. Beachte, daß das Tupel, das dem Index 414 zugeordnet ist, mehr als einmal in einer Molekülstruktur (200, 250) erscheinen kann oder in mehr als einer Molekülstruktur (200, 250) in einer Datenbank D, die eine Vielzahl von Molekülstrukturen (200, 250) enthält. Als Ergebnis gibt es im allgmeinen mehr als einen Eintrag 412 von Vektorinformationen in einem Datensatz 425 der Datenstruktur 400. Folglich schließt jeder solche Eintrag von Vektorinformationen, typischerweise 412, Identifizierungsinformationen für jede der Molekülstrukturen 421A-421N ein, in denen das Tupel, das den Index 414 erstellt, erscheint. Ein Datensatz 425 enthält auch das Rahmentupelfeld, das alle die Informationen umfaßt, die sich auf den Index 410, das Rahmentupel, das ihn erzeugte, und mögliche andere Informationen beziehen. 4 is a block diagram of a data structure 400 that have an index 414 that corresponds to a tuple (typically 335 . 345 . 355 ), Information about the identities of the atomic sites that participate in the tuple, and information that the representation 238A of the vector 238 in the skewed, local coordinate frame 245 of the tuple corresponding to the index 414 generated. Note that the tuple that is the index 414 is assigned more than once in a molecular structure ( 200 . 250 ) or in more than one molecular structure ( 200 . 250 ) in a database D containing a plurality of molecular structures ( 200 . 250 ) contains. As a result, there is generally more than one entry 412 of vector information in a record 425 the data structure 400 , Thus, each includes such entry of vector information, typically 412 , Identification information for each of the molecular structures 421A - 421N one in which the tuple containing the index 414 created, appears. A record 425 Also contains the frame dupefield that covers all the information that pertains to the script 410 The frame tuple that generated it, and possible other information relate.

Wie oben beschrieben wird der eindeutige Index 414 gebildet, der das Tupel 335 darstellt. Dieser Index 414 kann erstellt werden durch Benutzen irgendeiner Anzahl geometrischer Merkmale, Attribute oder Plätze des Tupels, chemischer oder physikalischer Informationen des Tupels oder der Atomplätze des Tupels usw. Zusätzlich kann dieser Index auf eine Position in einer eindimensionalen linearen Anordnung wie 400 abgebildet werden durch Benutzen von Standard-Positionsberechnungsverfahren (z.B. 'Schritt'-Berechnung). Zum Beispiel würde unter Benutzung von l1, l2, Θ2 und der SYBYL-Atomart des zweiten in der (normalisierten) Reihenfolge der Atomplätze für die Bildung eines Index der berechnete Offset (d.h. die Stelle in der Datenstruktur 400) wie folgt bestimmt werden:

  • 1: quantisiere den Wert VAi jedes der Attribute Ai (i = 1, 2, 3, 4, ...) durch Auswählen des ganzzahligen Wertes des Ausdrucks:
    Figure 00470001
    wobei min(Ai) der zulässige Minimalwert für das Attribut Ai ist, max(Ai) der zulässige Maximalwert für das Attribut Ai ist, SCHRITTE (Ai) die datenabhängige Anzahl der Quantisierungsschritte ist, in welchem das Intervall [min (Ai), max (Ai)] unterteilt ist (diese Anzahl von Schritten wird beschlossen und vor dem Anwenden des Verfahrens festgelegt), und i läuft durch die Menge der Attribute, die benutzt werden, um den Index 410 zu bilden. Beispiel: wenn das Längenattribut l1 den Wert 1,3 Angström hat und angenommen wird, daß der Bereich der möglichen Werte, der sich von 0,9 Angström bis 4,5 Angström erstreckt, in 64 Quantisierungsschritte unterteilt wurde, würde der abgeleitete quantisierte Wert für l1 sein:
    Figure 00470002
As described above, the unique index 414 formed, which is the tuple 335 represents. This index 414 can be created by using any number of geometric features, attributes or locations of the tuple, chemical or physical information of the tuple or atomic sites of the tuple, etc. In addition, this index may refer to a position in a one-dimensional linear array 400 can be mapped by using standard position calculation methods (eg 'step' calculation). For example, using l1, l2, Θ2 and the SYBYL atomic species of the second one in the (normalized) order of atomic sites to form an index, the computed offset (ie, the location in the data structure 400 ) are determined as follows:
  • 1: quantize the value V Ai of each of the attributes A i (i = 1, 2, 3, 4, ...) by selecting the integer value of the expression:
    Figure 00470001
    where min (A i ) is the minimum allowed value for the attribute A i , max (A i ) is the maximum allowable value for the attribute A i , STEPS (A i ) is the data-dependent number of quantization steps in which the interval [min ( A i ), max (A i )] is divided (this number of steps is decided and set before applying the method), and i passes through the set of attributes used to the index 410 to build. For example, if the length attribute l1 is 1.3 angstroms and it is assumed that the range of possible values ranging from 0.9 angstroms to 4.5 angstroms has been divided into 64 quantization steps, the derived quantized value would be be l1:
    Figure 00470002

In ähnlicher Weise wird der quantisierte Wert jedes Attributes Ai bestimmt. Beachte, daß für Attribute Ai, die inhärent Werte einer endlichen Menge von ganzen Zahlen (z.B. 4l SYBYL-Atomarten) annehmen können, die Variable SCHRITTE (Ai) auf die Mächtigkeit dieser Menge ganzer Zahlen reduziert werden kann.

  • 2: nimm die quantisierten Werte Ai und berechne die Position in der linearen Anordnung 400 unter Benutzen eines 'Schritt'-Berechnungsverfahrens. In diesem speziellen Beispiel haben wir die folgenden Entsprechungen: A1 <-> l1, A2 <-> l2, A3 <-> Θ, A4 <-> SYBYLAtomArt. Die Berechnung des Offset liefert:
    Figure 00480001
Similarly, the quantized value of each attribute A i is determined. Note that for attributes A i that can inherently take on values of a finite set of integers (eg, 4L SYBYL atom types), the variable STEPS (A i ) can be reduced to the power of that set of integers.
  • 2: take the quantized values A i and calculate the position in the linear array 400 using a 'step' calculation method. In this particular example we have the following equivalents: A 1 <-> I 1 , A 2 <-> I 2, A 3 <-> I, A 4 <-> SYBYLAtomArt. The calculation of the offset provides:
    Figure 00480001

Die Struktur 400 wird von den Prozessen 500 und 600, wie unten beschrieben, benutzt. Die Diskussion hat bis jetzt implizit angenommen, daß jede Molekülstruktur (200, 250) in der Datenbank D der Moleküle zumindest eine rotierbare Bindung 218 enthält.The structure 400 gets from the processes 500 and 600 as described below. The discussion has implicitly assumed that every molecular structure ( 200 . 250 ) in the database D of the molecules at least one rotatable bond 218 contains.

Aber es wurde früher darauf hingewiesen, daß dies nicht der Fall sein kann. In der Tat sind die folgenden Situationen möglich: (a) starre Teilstrukturen mit keinen rotierbaren Bindungen; mit anderen Worten können einige Molekülstrukturen in der Datenbank D starr sein und keine rotierbaren Bindungen enthalten; (b) starre Teilstrukturen mit einer rotierbaren Bindung, die von der Teilstruktur ausgeht; dies ist zum Beispiel der Fall der starren Teilstrukturen 210 und 220 in 2; und (c) starre Teilstrukturen mit mehr als einer rotierbaren Bindung, die von der Teilstruktur ausgehen. Die Tatsache, daß Molekülstrukturen mit einer oder mehreren der obigen drei Eigenschaften auch in der Datenbank D vorhanden sind, macht eine leichte Modifikation der oben beschriebenen Prozedur zur Indexerzeugung notwendig.But it was earlier pointed out that this can not be the case. In fact, the following situations are possible: (a) rigid substructures with no rotatable bonds; in other words, some molecular structures in database D may be rigid and contain no rotatable bonds; (b) rigid substructures with a rotatable bond emanating from the substructure; This is the case of the rigid substructures, for example 210 and 220 in 2 ; and (c) rigid substructures having more than one rotatable bond emanating from the substructure. The fact that molecular structures having one or more of the above three properties are also present in the database D necessitates a slight modification of the index generation procedure described above.

Im Fall der starren Molekülstrukturen, die keine rotierbaren Bindungen enthalten (Fall (a) oben), kann der Vektor 238 nicht mit Hilfe einer rotierbaren Bindung bestimmt werden. Stattdessen kann bei einem bevorzugten Ausführungsbeispiel der Vektor 238 leicht durch Identifizieren eines Paares von Atomplätzen definiert werden: ein solches Paar von Plätzen könnte z.B. durch das Paar von Atomplätzen gebildet werden, die in der betrachteten Molekülstruktur die am weitesten entfernten sind. Modifikationen dieser Prozedur sind auch möglich: das Hauptziel hier ist das Erstellen eines Vektors 238. Die Linie, die die beiden Plätze des Paares verbindet, entspricht der Achse des Vektors 238. Dies kann als äquivalent dazu angesehen werden, eine 'erdachte rotierbare' Bindung 218 zu haben, die die starre Teilstruktur 210 mit sich selbst verbindet. Aber die Richtung des Vektors 238 kann nicht mehr bestimmt werden, indem man Gebrauch macht von den Kennzeichnungen der in Frage kommenden starren Teilstrukturen: Ein bevorzugtes Ausführungsbeispiel führt eine Modifikation ein, gemäß der die Richtung von 238 bestimmt wird, indem man von den Zahlen der Atomplätze Gebrauch macht, die die (erdachte rotierbare) Bindung verbindet: die Vereinbarung über die Richtung wird als von dem niedriger (höher) nummerierten Atomplatz zu dem höher (niedriger) nummerierten Atomplatz verlaufend angenommen, durchgehend für alle einer oder mehrerer analysierter Molekülstrukturen 200.In the case of rigid molecular structures containing no rotatable bonds (case (a) above), the vector may be 238 can not be determined by means of a rotatable bond. Instead, in a preferred embodiment, the vector 238 can be readily defined by identifying a pair of Atoms: such a pair of sites could be formed, for example, by the pair of Atoms that are the farthest in the considered molecular structure. Modifications to this procedure are also possible: the main goal here is to create a vector 238 , The line connecting the two places of the pair corresponds to the axis of the vector 238 , This may be considered equivalent to a 'designed rotatable' bond 218 to have the rigid part structure 210 connects with itself. But the direction of the vector 238 can no longer be determined by making use of the markings of the rigid substructures in question: A preferred embodiment introduces a modification according to which the direction of 238 is determined by making use of the numbers of atomic sites connecting the (conceived rotatable) bond: the agreement on the direction is assumed to proceed from the lower (higher) numbered atomic place to the higher (lower) numbered atomic space all of one or more analyzed molecular structures 200 ,

Im Falle der starren Molekülteilstrukturen mit mehr als einer rotierbaren Bindung, die von der Teilstruktur herrühren (Fall (c) oben), gibt es eine Wahlmöglichkeit, wie der Vektor 238 definiert ist. Zum Beispiel könnte eine der rotierbaren Bindungen bei der Definition des Vektors 238 benutzt werden. Alternativ könnte der Vektor 238 mit Hilfe einer 'erdachten rotierbaren' Bindung definiert werden.In the case of the rigid moieties having more than one rotatable bond resulting from the substructure (case (c) above), there is a choice such as the vector 238 is defined. For example, one of the rotatable bonds in the definition of the vector 238 to be used. Alternatively, the vector could be 238 be defined by means of a 'conceived rotatable' bond.

Wenn die erdachten Bindungen erzeugt werden, kann es Situationen geben, in denen Symmetrien gebrochen werden müssen. Zum Beispiel: Molekülstrukturen, die zwei Paare von Atomplätzen enthalten, wobei die Mitglieder des Paares sich in gleicher Entfernung voneinander befinden. Um dieses Problem zu lösen, könnte zum Beispiel ein Ausführungsbeispiel das Paar beibehalten, das den niedrigstnummerieren Atomplatz aufweist, und das andere verwerfen.If the imagined bonds are generated there can be situations in which symmetries have to be broken. For example: molecular structures, the two pairs of atoms included, with the members of the couple at the same distance from each other. To solve this problem, for example, an embodiment maintain the pair that has the lowest-numbered atomic place, and reject the other.

Mit der beschriebenen Modifikation kann jetzt jede starre Molekülstruktur mit 'einem Vektor 238' versehen werden, der wie gewöhnlich in jedem schiefwinkligen, lokalen Koordinatenrahmen 245 ausgedrückt werden kann, der aus der Referenztupel-Auswahlmenge erzeugt werden kann.With the modification described, any rigid molecular structure can now be labeled with a vector 238 ' as usual in any skewed, local coordinate frame 245 which can be generated from the reference tuple selection set.

Der Prozeß 500 analysiert eine Menge einer oder mehrerer Molekülstrukturen (200, 250) in einer Datenbank D, die eine Vielzahl von Molekülstrukturen (200, 250) enthält, durch Bestimmen für eine Vielzahl von Indizes 410 keiner oder mehrerer Molekülstrukturen (200, 250) und/oder Teilstrukturen (210, 220), die Tupel enthalten, die im Hinblick auf die Attribute Ai, die benutzt wurden, um den Index 410 zu bestimmen, ähnlich sind, für welche jede dieser Molekülstrukturen (200, 250) und/oder Teilstrukturen (210, 220) einen Eintrag 412 erzeugt, der

  • (a) eine der Molekülstrukturen (200, 250) identifiziert (421A-421N), die einem bestimmten Vektor 238 zugeordnet sind,
  • (b) das Rahmentupel identifiziert, das den Index 414 erzeugte,
  • (c) die Molekülteilstruktur (210, 220) identifiziert (422A-422N), aus der das Tupel gezogen wurde,
  • (d) die Teilstruktur (210, 220) identifiziert (423A-423N), die mit dem Ende der rotierbaren Bindung 218 verbunden ist, die sich gegenüber dem Ende befindet, das mit der Molekülteilstruktur aus (b) am Platz der Anordnung der Struktur 400 verbunden ist, die dem Index 414 entspricht,
The process 500 analyzes a set of one or more molecular structures ( 200 . 250 ) in a database D containing a plurality of molecular structures ( 200 . 250 ) by determining for a plurality of indices 410 no or more molecular structures ( 200 . 250 ) and / or substructures ( 210 . 220 ), which contain tuples that are in terms of the attributes A i used to the index 410 are similar for which each of these molecular structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) An entry 412 generated, the
  • (a) one of the molecular structures ( 200 . 250 ) identified ( 421A - 421N ), which is a specific vector 238 assigned,
  • (b) the frame tuple identifies the index 414 generated
  • (c) the molecular structure ( 210 . 220 ) identified ( 422A - 422N ) from which the tuple was drawn
  • (d) the substructure ( 210 . 220 ) identified ( 423A - 423n ), which coincide with the end of the rotatable bond 218 (b) at the place of arrangement of the structure 400 connected to the index 414 corresponds,

Außerdem vermehrt der Prozeß 500 diese Einträge 412 mit Vektorinformationen 238A über den Vektor 238 in jedem der schiefwinkligen, lokalen Koordinatenrahmen 245, die durch jeden der Indizes 414 in der gesamten Datenbank D der Molekülstrukturen vertreten werden. Zusätzliche Informationen können auch in diesen Einträgen 412 eingeschlossen sein.In addition, the process increases 500 these entries 412 with vector information 238A about the vector 238 in each of the skewed, local coordinate frames 245 passing through each of the indexes 414 represented in the entire database D of the molecular structures. Additional information can also be found in these entries 412 be included.

Nachdem der Prozeß 500 einmal die Datenstruktur 400 besiedelt, enthält die Datenstruktur 400 alle der Strukturen (200, 250) und/oder Teilstrukturen (210, 220) in der gesamten Datenbank D, klassifiziert gemäß den Tupelattributen, die benutzt werden, um den Index 414 zu bestimmen, zusammen mit invarianten Informationen über den Vektor 238 (dieser Vektor kann realen oder erdachten Bindungen entsprechen), der in diesen Strukturen (200, 250) vorhanden ist, und mögliche andere Informationen.After the process 500 once the data structure 400 populated, contains the data structure 400 all of the structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) in the entire database D, classified according to the tuple attributes used to make the index 414 to determine, along with invariant information about the vector 238 (this vector may correspond to real or imagined bonds) that exist in these structures ( 200 . 250 ), and possible other information.

5 ist ein Flußdiagramm, das die Schritte des Besiedelns der Datenstruktur der 4 zeigt, damit sie Strukturinformationen und andere Informationen über eines oder mehrere Referenzmoleküle enthält. Dieser Prozeß wird der Referenz-Speicherungsprozeß 500 genannt. Der Prozeß 500 ordnet einen Index 414, der einem Tupel (typisch 335, 345, 355) entspricht, Vektorinformationen 420 zu, die der Darstellung 238A für jeden Vektor 238 entsprechen, der einer starren Teilstruktur in dem schiefwinkligen, lokalen Koordinatenrahmen 245 des Tupels zugeordnet ist, das den Index 414 erzeugt für jedes Molekül in der Datenbank D mit einer Vielzahl bekannter Moleküle. 5 FIG. 10 is a flowchart illustrating the steps of populating the data structure of the 4 shows to contain structural information and other information about one or more reference molecules. This process becomes the reference storage process 500 called. The process 500 assigns an index 414 which is a tuple (typical 335 . 345 . 355 ), vector information 420 to that of the representation 238A for every vector 238 corresponding to a rigid substructure in the skewed, local coordinate frame 245 of the tuple that is the index 414 generates for each molecule in the database D with a variety of known molecules.

Der Prozeß 500 beginnt durch Auswählen 505 eines Moleküls mit einer Identifizierung aus der Datenbank D mit bekannten Molekülen. Diese Identifizierung kann irgendein bekannter Weg der Kennzeichnung eines Moleküls sein, wie das oben beschrieben wurde, z.B. ein Schema für die Nummerierung der Moleküle.The process 500 begins by selecting 505 a molecule with an identification from the database D with known molecules. This identification may be any known way of labeling a molecule as described above, eg a scheme for the numbering of the molecules.

Der Schritt 510 bestimmt die Anzahl starrer Teilstrukturen (210, 220) in dem ausgewählten Molekül 505. Wenn Schritt 512 bestimmt, daß es nur eine starre Teilstruktur gibt, bedeutet dies, daß das fragliche Molekül starr ist und eine erdachte rotierbare Bindung erzeugt wird 513, wie das früher beschrieben wurde; dann wird diese starre Teilstruktur ausgewählt 520. Wenn es mehr als eine Teilstruktur gibt, wird ein Paar von starren Teilstrukturen, das in dem gewählten Molekül 505 durch eine rotierbare Bindung 218 verbunden ist, ausgewählt 515. Eine typische rotierbare Bindung 218 zwischen den ausgewählten 515 starren Teilstrukturen ist ein Vektor 238 mit einer Position und Orientierung in dem globalen Koordinatenrahmen 235, wie das oben in 2A beschrieben wurde.The step 510 determines the number of rigid substructures ( 210 . 220 ) in the selected molecule 505 , When step 512 determines that there is only one rigid substructure, this means that the mo lekül is rigid and an imaginary rotatable bond is generated 513 as described earlier; then this rigid substructure is selected 520 , If there is more than one substructure, there will be a pair of rigid substructures that are in the chosen molecule 505 through a rotatable bond 218 connected, selected 515 , A typical rotatable bond 218 between the selected 515 rigid substructures is a vector 238 with a position and orientation in the global coordinate frame 235 like the one above 2A has been described.

Im Schritt 520 wird eine der Teilstrukturen des ausgewählten Paares 515 der starren Teilstrukturen (210, 220) oder die einzige starre Teilstruktur des Moleküls ausgewählt. Anschließend wird im Schritt 525 ein Vektor 238 für die ausgewählte 520 starre Teilstruktur bestimmt, und eine Referenztupel-Auswahlmenge wird geschaffen.In step 520 becomes one of the substructures of the selected pair 515 the rigid substructures ( 210 . 220 ) or the only rigid substructure of the molecule. Subsequently, in step 525 a vector 238 for the selected 520 fixed part structure, and a reference tuple selection set is created.

In den Schritten 530, 535, 540, 545, 550 und 555 werden ein Tupel, der zugeordnete schiefwinklige lokale Koordinatenrahmen 245 und ein Index (= Index des Referenzrahmentupels) in der Datenstruktur 400 – wobei der Index eindeutig für das Tupel ist – für jedes Tupel erzeugt, das aus der Referenztupel-Auswahlmenge gebildet werden kann. Bei einem bevorzugten Ausführungsbeispiel werden nur normalisierte Tupel benutzt (siehe oben).In the steps 530 . 535 . 540 . 545 . 550 and 555 become a tuple, the associated skewed local coordinate frame 245 and an index (= index of the reference frame tuple) in the data structure 400 Where the index is unique to the tuple, generates for each tuple that can be formed from the reference tuple selection set. In a preferred embodiment, only normalized tuples are used (see above).

Im Schritt 530 wird ein Tupel erstellt durch Auswählen unter den Mitgliedern der Referenztupel-Auswahlmenge. Im Schritt 535 wird ein schiefwinkliger, lokaler Koordinatenrahmen 245 aus dem Tupel erzeugt, das in 530 erzeugt wurde, wie das in den 2 und 3 oben beschrieben wurde; der Vektor 238, der der ausgewählten starren Teilstruktur 520 zugeordnet ist, wird dargestellt 540 in dem schiefwinkligen, lokalen Koordinatenrahmen 245, der durch das Tupel definiert ist. Verschiedene Wege der Darstellung 540 des Vektors 238 sind oben beschrieben worden.In step 530 a tuple is created by selecting from among the members of the reference tuple selection set. In step 535 becomes an oblique, local coordinate frame 245 produced from the tuple that is in 530 was generated, as in the 2 and 3 described above; the vector 238 that of the selected rigid substructure 520 is assigned is displayed 540 in the skewed, local coordinate frame 245 which is defined by the tuple. Different ways of presentation 540 of the vector 238 have been described above.

Im Schritt 545 wird der Index 410, der dem erstellten Tupel 530 zugeordnet ist, erzeugt (siehe oben bei bevorzugten Ausführungsbeispielen für das Erzeugen von Indizes). Im Schritt 550 wird die Darstellung 540 des Vektors 238 in der Datengruppe/Datenstruktur 400 gespeichert. Beachte, daß der Eintrag 412 dem Index 414 zugeordnet ist, der dem ausgewählten/erstellten Tupel 530 entspricht. Im Schritt 555 bestimmt der Prozeß 500, ob weitere Tupel aus den Mitgliedern der Referenztupel-Auswahlmenge 525 zu erstellen sind 530. Wenn weitere Tupel zu erstellen sind, werden die Schritte 530, 545, 540, 545, 550 und 555 wiederholt. Wenn keine weiteren Tupel zu erstellen sind 555, wird das identifizierte Molekül 505 geprüft 560, um zu bestimmen, ob beide starren Teilstrukturen in dem ausgewählten Paar 520 von Teilstrukturen (210, 22)0 verarbeitet wurden – mit 'Prozeß' ist hier gemeint, daß ein Eintrag 412 in der Datenstruktur 400 gemacht wurde. Wenn eine der Teilstrukturen des ausgewählten Paares 515 noch unverarbeitet bleibt 560, wird die unverarbeitete Teilstruktur ausgewählt 520, und die Schritte 525, 530, 535, 540, 545, 550 und 555 werden wiederholt. Wenn beide Teilstrukturen des Paares verarbeitet wurden 560, bestimmt der Prozeß 500, ob es weitere Paare 565 von Teilstrukturen 210, 220 in dem ausgewählten Molekül 505 gibt, die durch rotierbare Bindungen 218 verbunden sind. Wenn es weitere Paare von Teilstrukturen 565 gibt, die durch rotierbare Bindungen in dem Molekül verbunden sind, wird der Prozeß wiederholt, beginnend beim Schritt 515.In step 545 becomes the index 410 that created the tuple 530 is generated (see above in preferred embodiments for generating indices). In step 550 becomes the representation 540 of the vector 238 in the data group / data structure 400 saved. Note that the entry 412 the index 414 associated with the selected / created tuple 530 equivalent. In step 555 the process determines 500 whether there are more tuples from the members of the reference tuple selection set 525 to create 530 , When more tuples are to be created, the steps become 530 . 545 . 540 . 545 . 550 and 555 repeated. If there are no more tuples to create 555 , becomes the identified molecule 505 checked 560 to determine if both rigid substructures in the selected pair 520 of substructures ( 210 . 22 ) 0 were processed - with 'process' here is meant that an entry 412 in the data structure 400 have been done. If one of the subtrees of the selected pair 515 remains unprocessed 560 , the unprocessed substructure is selected 520 , and the steps 525 . 530 . 535 . 540 . 545 . 550 and 555 are repeated. When both substructures of the pair have been processed 560 , determines the process 500 if there are more couples 565 of substructures 210 . 220 in the selected molecule 505 There are rotatable bonds 218 are connected. If there are more pairs of substructures 565 Given that there are rotatable bonds in the molecule, the process is repeated beginning with the step 515 ,

Wenn alle die Paare der Teilstrukturen, die durch eine rotierbare Bindung 218 in dem ausgewählten Molekül 505 verbunden sind, verarbeitet wurden, bestimmt 570 der Prozeß 500, ob es irgendwelche nicht verarbeiteten Moleküle in der Datenbank D gibt. Wenn das der Fall ist, beginnt der Prozeß 500 wieder mit einem neu ausgewählten Molekül beim Schritt 505. Wenn das nicht der Fall ist, endet 575 der Prozeß 500, der die Datenstruktur 400 mit allen möglichen Darstellungen 412 jedes Vektors 238 in allen schiefwinkligen, lokalen Koordinatenrahmen 245 jedes Moleküls 505 in der Datenbank D besiedelt hat. Beachte, daß mehr als eine Darstellung eines Vektors 238 (z.B. 412A-412N) in der Datenstruktur 400 als einem bestimmten Index 414 zugeordnet untergebracht werden kann, der einen Datensatz 425 der Datenstruktur 400 identifiziert.If all the pairs of substructures, by a rotatable bond 218 in the selected molecule 505 are connected, processed 570 the process 500 Whether there are any unprocessed molecules in the D database. If so, the process begins 500 again with a newly selected molecule at the step 505 , If that is not the case, ends 575 the process 500 that the data structure 400 with all possible representations 412 every vector 238 in all skewed, local coordinate frames 245 every molecule 505 in the database D has settled. Note that more than one representation of a vector 238 (eg 412A - 412N ) in the data structure 400 as a specific index 414 can be accommodated assigned to a record 425 the data structure 400 identified.

6 ist ein Flußdiagramm, das die Schritte des Vergleichsprozesses 600 zeigt. Der Vergleichsprozeß benutzt die Datenstruktur 400, die durch den Referenz-Speicherungsprozeß 500 besiedelt wurde. 6 is a flow chart showing the steps of the comparison process 600 shows. The comparison process uses the data structure 400 that through the reference storage process 500 was colonized.

Der Prozeß 600 bildet Tupel aus der Vergleichstupel-Auswahlmenge irgendeines gegebenen Testmoleküls und eine Menge von Indizes 410, die diesen Tupeln in der oben beschriebenen Weise entspricht. Diese Menge von Indizes ist die 'Testindex'-Menge. Wenn die Information in der Datenstruktur 400 und die Testindexmenge gegeben sind, kann der Prozeß 600 diejenigen Strukturen (200, 250) und/oder Teilstrukturen (210, 220) all der Moleküle in der Datenbank bestimmen, die Tupel enthalten, die identische Attribute Ai gemeinsam mit den Tupeln des Testmoleküls benutzen, die benutzt werden, um die Testindexmenge zu erzeugen. Darüberhinaus kann der Prozeß 600 durch Benutzen der zählenden Datenstruktur 700 und der Informationen (410, 420) bestimmen, ob das gesamte Testmolekül oder ein Teil identisch mit einer oder mehreren Strukturen (200, 250) und/oder Teilstrukturen (210, 220) in der Datenbank ist.The process 600 forms tuples from the comparative tuple selection amount of any given test molecule and a set of indices 410 which corresponds to these tuples in the manner described above. This set of indices is the 'test index' set. If the information in the data structure 400 and the test index set are given, the process can 600 those structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) of all the molecules in the database that contain tuples that use identical attributes A i together with the tuples of the test molecule that are used to generate the test index set. In addition, the process can 600 by using the counting data structure 700 and the information ( 410 . 420 ) determine whether the entire test molecule or part is identical to one or more structures ( 200 . 250 ) and / or substructures ( 210 . 220 ) in the database.

Der Prozeß 600 beginnt durch Auswählen 605 eines Testmoleküls aus einer Sammlung von einem oder mehreren Testmolekülen. Dieses Testmolekül wird mit der Datenbank D verglichen, um diejenigen Moleküle von D zu identifizieren, die die Molekülteilstrukturen (210, 220), enthalten, die mit dem Testmolekül übereinstimmen. Mit 'Übereinstimmung' ist hier gemeint, daß: (a) das identifizierte Molekül (oder die Moleküle) in D ist (sind) mit em Testmolekül identisch; oder (b) das identifizierte Molekül (oder die Moleküle) in D enthält (enthalten) Teilstrukturen (210, 220), deren Teile mit dem Testmolekül in seiner Gesamtheit übereinstimmen; oder (c) das Testmolekül enthält einen Teil, der mit dem identifizierten Molekül (oder den Molekülen) in D in seiner Gesamtheit übereinstimmt; oder (d) das Testmolekül enthält einen Teil, der mit Teilen einer oder mehrerer der starren Teilstrukturen in dem identifizierten Molekül (oder den Molekülen) von D übereinstimmt. Es ist zu beachten, daß das Testmolekül und das identifizierte Molekül (oder die Moleküle) aus D nicht die gleiche Form haben müssen. Der Prozeß 600 bestimmt im wesentlichen, ob das Testmolekül mit einem oder mehreren der Moleküle in D mit einer bestimmten Konformation der letzteren übereinstimmt. Es sollte jedoch beachtet werden, daß der Prozeß 600 nicht die geforderten Rotations- und Translationstransformationen bestimmt, die das (die) identifizierte (n) Molekül (e) in die Konformation bringt, die am besten in das Testmolekül paßt. Aufgrund der Tatsache, daß die Kenntnis der Position und Orientierung der rotierbaren Bindung 218 in dem globalen Koordinatenrahmen 235 die Position und Orientierung der mit ihren Endpunkten verbundenen starren Teilstrukturen beschränkt, aber nicht vollständig spezifiziert, ist beträchtlicher Rechenaufwand erforderlich, um solche Konformationen zu bestimmen. Dieses Problem, das Erkennung genannt wird, wird durch die US-Patentanmeldung 577 353 angesprochen, die betitelt ist "System and Method for Conformationally-Flexible Recognition" von I. Rigoutsos, die am gleichen Tag wie diese Anmeldung angemeldet wurde und die in ihrer Gesamtheit hier eingegliedert wird.The process 600 begins by selecting 605 a test molecule from a collection of one or more test molecules. This test molecule is compared with the database D to identify those molecules of D that have the molecular substructures ( 210 . 220 ) that match the test molecule. By 'correspondence' is meant here that: (a) the identified molecule (or molecules) in D is (are) identical to a test molecule; or (b) the identified molecule (or molecules) in D contains (contains) substructures ( 210 . 220 ) whose parts coincide with the test molecule in its entirety; or (c) the test molecule contains a moiety that matches the identified molecule (or molecules) in D in its entirety; or (d) the test molecule contains a moiety that matches parts of one or more of the rigid substructures in the identified molecule (s) of D. It should be noted that the test molecule and the identified molecule (or molecules) of D need not have the same shape. The process 600 essentially determines whether the test molecule matches one or more of the molecules in D with a particular conformation of the latter. It should be noted, however, that the process 600 does not determine the required rotational and translational transformations that will place the identified molecule (s) in the conformation most suitable for the test molecule. Due to the fact that the knowledge of the position and orientation of the rotatable bond 218 in the global coordinate frame 235 Although the position and orientation of the rigid substructures associated with their endpoints are limited but not fully specified, considerable computational effort is required to determine such conformations. This problem, called detection, is addressed by U.S. Patent Application 577,353, entitled "System and Method for Conformationally-Flexible Recognition" by I. Rigoutsos filed the same day as this application and in its entirety incorporated here.

In dem wahlweisen Schritt 610 bestimmt der Prozeß 600, ob es eine oder mehrere rotierbare Bindungen in dem Testmolekül gibt, die irgendeine der Standardlösungen benutzt. Dadurch werden die starren Teilstrukturen (210, 220) in dem Testmolekül identifiziert.In the optional step 610 the process determines 600 Whether there are one or more rotatable bonds in the test molecule using any of the standard solutions. As a result, the rigid substructures ( 210 . 220 ) in the test molecule.

Wenn es nur eine starre Teilstruktur gibt, wird diese starre Teilstruktur ausgewählt 620. Wenn es mehr als eine Teilstruktur gibt, werden zwei starre Teilstrukturen, die durch die rotierbaren Bindungen 218 in dem Testmoleküle 605 verbunden sind, ausgewählt 615.If there is only one rigid substructure, this rigid substructure is selected 620 , If there is more than one substructure, two rigid substructures are created by the rotatable bonds 218 in the test molecule 605 are selected 615 ,

Im Schritt 620 wird eine der Teilstrukturen des ausgewählten Paares 615 der starren Teilstrukturen ausgewählt. Eine Vergleichstupel-Auswahlmenge für die ausgewählte Teilstruktur des Testmoleküls wird erstellt 625.In step 620 becomes one of the substructures of the selected pair 615 the rigid substructures selected. A comparison tuple selection set is made for the selected substructure of the test molecule 625 ,

In den Schritten 630, 635, 645 werden ein Tupel, der zugehörige schiefwinklige, lokale Koordinatenrahmen 245 und ein Index (= Testrahmen-Tupelindex), der für das Tupel eindeutig ist, für jedes Tupel erzeugt, das aus der Vergleichstupel-Auswahlmenge ausgewählt werden kann. Bei einem bevorzugten Ausführungsbeispiel werden nur normalisierte Tupel benutzt (vgl. oben).In the steps 630 . 635 . 645 become a tuple, the associated oblique, local coordinate frame 245 and generates an index (= test frame tuple index) unique to the tuple for each tuple that can be selected from the comparison tuple selection set. In a preferred embodiment, only normalized tuples are used (see above).

Im Schritt 630 wird ein Tupel durch Auswählen unter den Mitgliedern der Vergleichstupel-Auswahlmenge erstellt. Im Schritt 635 wird ein schiefwinkliger, lokaler Koordinatenrahmen 245 aus dem Tupel, das im Schritt 630 erstellt wurde, erzeugt, wie das in den 2 und 3 oben beschrieben wurde. Im Schritt 645 wird der Testrahmen-Tupelindex 645i erzeugt, der mit dem erstellten Tupel 630 verbunden ist (siehe oben für bevorzugte Ausführungsbeispiele zum Erzeugen von Indizes).In step 630 a tuple is created by selecting from among the members of the comparison tuple selection set. In step 635 becomes an oblique, local coordinate frame 245 from the tuple that is in the crotch 630 was created, like that in the 2 and 3 has been described above. In step 645 becomes the test frame tuple index 645i generated with the created tuple 630 (see above for preferred embodiments for generating indices).

Beachte, daß die Schritte 610, 615, 620, 625, 630, 635 und 645 für das Testmolekül in gleicher Weise durchgeführt werden wie die entsprechenden Schritte 510, 515, 520, 520, 525, 530, 535 und 545 für alle die Referenzmoleküle in der Datenbank D durch den Prozeß 500 durchgeführt wurden. Daher ist der Testrahmen-Tupelindex 645i eindeutig für das zugehörige Tupel und invariant bei Translatation 295 und Rotationen 290 der Molekülstruktur (200, 250) und irgendwelchen Rotationen 215 irgendeiner Teilstruktur (210, 220) um rotierbare Bindungen 218, die in dem ausgewählten Molekül 605 vorhanden sind.Note that the steps 610 . 615 . 620 . 625 . 630 . 635 and 645 for the test molecule are carried out in the same way as the corresponding steps 510 . 515 . 520 . 520 . 525 . 530 . 535 and 545 for all the reference molecules in the database D through the process 500 were carried out. Therefore, the test frame tuple index is 645i unique to the associated tuple and invariant to translatation 295 and rotations 290 the molecular structure ( 200 . 250 ) and any rotations 215 any substructure ( 210 . 220 ) around rotatable bonds 218 that are in the selected molecule 605 available.

Im Schritt 650 ruft der Prozeß 600 Darstellungen und andere Informationen unter Benutzung des Testrahmen-Tupelindex aus der Datenstruktur (Anordnung) 400 ab. In dem Fall, in dem das Testmolekül (in jeder Hinsicht, die durch den gebildeten Index eingefangen wird: z.B. physikalischer, chemischer, geometrischer usw.) identisch mit einem oder mehreren der Moleküle in der Datenbank D ist, gibt es zumindest einen Eintrag 412 von Vektorinformationen 420 in dem Datensatz 425, auf den durch jeden erzeugten Testrahmen-Tupelindex 645i in der Datenstruktur 400 zugegriffen wird, der die gleichen Vektorinformationen aufweist, die einen Vektor 238 in dem Testmolekül beschreiben. Der Testrahmen-Tupelindex 645i greift auf den Datensatz 425 zu, weil der Testrahmen-Tupelindex 645i mit dem Referenzrahmen-Tupelindex 414 identisch ist, da sie beide aus den gleichen Molekülteilstrukturen (210, 220) unter Benutzung der gleichen Schritte (510, 515, 520, 525, 530, 535, 545 bzw. 610, 615, 620, 625, 630, 635, 645) erzeugt wurden.In step 650 the process calls 600 Representations and other information using the test frame tuple index from the data structure (arrangement) 400 from. In the case where the test molecule (in all respects captured by the index formed: eg physical, chemical, geometric, etc.) is identical to one or more of the molecules in the database D, there is at least one entry 412 of vector information 420 in the record 425 On top of that generated by each test frame tupelin dex 645i in the data structure 400 which has the same vector information as a vector 238 in the test molecule. The test frame tuple index 645i accesses the record 425 too, because the test frame tuple index 645i with the reference frame tuple index 414 is identical, since they both consist of the same partial molecular structures ( 210 . 220 ) using the same steps ( 510 . 515 . 520 . 525 . 530 . 535 . 545 respectively. 610 . 615 . 620 . 625 . 630 . 635 . 645 ) were generated.

Es sei jedoch bemerkt, daß es andere Moleküle (oder starre Teilstrukturen und/oder Teile von starren Teilstrukturen) in der Datenbank D geben kann, die Tupel enthalten, die Referenzrahmen-Tupelindizes 414 erzeugen, die die gleichen sind wie die Testrahmen-Tupelindizes 645i. Dies geschieht, weil die entsprechenden Tupel hinsichtlich der gewählten Attribute 414 identisch sind, die sowohl den Referenzrahmen-Tupelindex 414 und den Testrahmen-Tupelindex 645i bilden. Zum Beispiel erzeugt in dem Fall, in dem die Attribute geometrische (l1/l2/Θ2, wie oben) und von der Atomart eines Platzes sind (AtomArt wie oben), das Tupel A-B-E in 2A denselben Index ohne Rücksicht auf die tatsächliche chemische Art der Atome B und E, solange die Werte der Attribute, die den Index bilden, identisch bleiben. Daher besitzt die Struktur 400 Informationen, die beim Identifizieren eines oder mehrerer Moleküle aus der Datenbank D nützlich sind, die mit einem bestimmten Testmolekül übereinstimmen (siehe oben nach einer Definition der 'Übereinstimmung') durch Bestimmen der Häufigkeit des Auftretens von impliziten oder expliziten Informationen, die durch die Vektorinformationen 420 in einem oder mehreren der Einträge 412A-412N wie unten beschrieben gegeben sind.It should be noted, however, that there may be other molecules (or rigid substructures and / or parts of rigid substructures) in the database D that contain tuples, the reference frame tuple indices 414 which are the same as the test frame tuple indices 645i , This happens because the corresponding tuples regarding the chosen attributes 414 are identical to both the reference frame tuple index 414 and the test frame tuple index 645i form. For example, in the case where the attributes are geometric (l1 / l2 / Θ2, as above) and the atomic type of a place (AtomArt as above), the tuple ABE in 2A the same index, regardless of the actual chemical nature of atoms B and E, as long as the values of the attributes that make up the index remain identical. Therefore, the structure possesses 400 Information useful in identifying one or more molecules from database D that match a particular test molecule (see above for a definition of 'match') by determining the frequency of occurrence of implicit or explicit information by the vector information 420 in one or more of the entries 412A - 412N as described below.

Nachdem die Vektorinformationen für die rotierbaren Bindungen im Schritt 650 abgerufen werden, werden die Vektorinformationen 420 für jeden Eintrag 412A-412N des Datensatzes 425, auf die durch den Testrahmen-Tupelindex 645i zugegriffen wird, benutzt, um die Position und Orientierung jedes dieser Vektoren 238, die in jedem Eintrag 412A-412N in dem Datensatz 425 enthalten sind, in dem globalen Koordinatenrahmen 235 wiederherzustellen. Auf diese wiederhergestellten Instanzen des Vektors 238 kann auch als auf Testvektoren in dieser Diskussion Bezug genommen werden. Das Wiederherstellen wird erreicht durch Benutzen der Darstellungen jedes Vektors 238, der in den Einträgen 412A-412N enthalten ist, und durch Standardverfahren der Vektoranalyse; für jeden Eintrag in jedem Datensatz mit einem Referenzrahmen-Tupelindex, der mit dem Testrahmen-Tupelindex übereinstimmt, erzeugen wir einen Abstimmungsdatensatz in einer Abstimmungsdatenstruktur 655, wobei der Abstimmungsdatensatz Plazierungsinformationen in dem globalen Koordinatenrahmen 235 für jeden Vektor 238 enthält, dessen Darstellung in den Einträgen 412A-412N enthalten ist. Bei anderen alternativen bevorzugten Ausführungsbeispielen kann die Molekülidentität 421A-421N, die Teilstruktur (210, 220)-Identität 422A-422N und/oder die Teilstruktur (210, 220)-Identität 423A-423N zusätzlich zu der abgerufenen Plazierungsinformation benutzt werden, wenn die Abstimmungstabelle besiedelt wird.After the vector information for the rotatable bonds in step 650 be retrieved, the vector information 420 for every entry 412A - 412N of the record 425 pointed to by the test frame tuple index 645i is accessed, used to determine the position and orientation of each of these vectors 238 that in every entry 412A - 412N in the record 425 are included in the global coordinate frame 235 restore. On these recovered instances of the vector 238 can also be referred to as test vectors in this discussion. Restoration is achieved by using the representations of each vector 238 that in the entries 412A - 412N and by standard methods of vector analysis; for each entry in each record with a reference frame tuple index that matches the test frame tuple index, we generate a voting record in a voting data structure 655 wherein the voting record is placement information in the global coordinate frame 235 for every vector 238 contains, its representation in the entries 412A - 412N is included. In other alternative preferred embodiments, the molecule identity 421A - 421N , the substructure ( 210 . 220 )-Identity 422A - 422N and / or the substructure ( 210 . 220 )-Identity 423A - 423n in addition to the retrieved placement information when populating the reconciliation table.

Im Schritt 660 wird jeder der Abstimmungsdatensätze, die im Schritt 650 erzeugt wurden, in die Abstimmungstabelle (siehe 700 unten) eingegeben. Es ist klar, daß Schritt 650 viele identische Abstimmungsdatensätze erzeugt, d.h. Abstimmungsdatensätze, die die gleichen Plazierungsinformationen, Informationen bezüglich der Molekülidentität und Informationen bezüglich der Teilstrukturidentität enthalten. Dies ist das Ergbnis von mehr als einem der Rahmentupel, die eine bestimmte Plazierung in dem globalen Koordinatenrahmen 235 für den Vektor 238 unterstützen, der mit einer starren Teilstruktur eines bestimmten Moleküls verbunden ist. Das Ausmaß der Übereinstimmung zwischen einem Teil eines Testmoleküls und einem oder mehreren der Teile einer oder mehrerer Teilstrukturen eines oder mehrerer Moleküle in der Datenbank D wird direkt zu der Vielfalt solcher identischen Abstimmungsdatensätze in Beziehung gesetzt oder äquivalent zu der Häufigkeit des Auftretens jedes bestimmten Abstimmungsdatensatzes in der Abstimmungstabelle 700.In step 660 each of the voting records that are in step 650 into the voting table (see 700 below). It is clear that step 650 generates many identical reconciliation records, ie reconciliation records that contain the same placement information, information about the molecular identity, and information about the substructure identity. This is the result of more than one of the frame tuples having a particular placement in the global coordinate frame 235 for the vector 238 support associated with a rigid substructure of a particular molecule. The degree of correspondence between a portion of a test molecule and one or more of the portions of one or more substructures of one or more molecules in the database D is directly related to the variety of such identical voting records or equivalent to the frequency of occurrence of each particular voting record in the database voting table 700 ,

Nachdem einmal alle Abstimmungsdatensätze, die unter Benutzen der Merkmale in den Einträgen 412A-412N der Vektorinformationen 420 für den Datensatz 425, auf den zugegriffen wurde, erzeugt wurden, in die Abstimmungstabelle eingegeben wurden, bestimmt 665 der Prozeß 600, ob es weitere zu erstellende 630 Tupel aus den Mitgliedern der Referenztupel-Abstimmungsmenge 625 gibt. Wenn es weitere zu erstellende 665 Tupel gibt, werden die Schritte 630, 635, 645, 650 und 655 wiederholt. Wenn es keine zu erstellenden 665 Tupel mehr gibt, wird das Testmolekül 650 geprüft 670, um zu bestimmen, ob beide Teilstrukturen in dem ausgewählten 620 Paar von Teilstrukturen (210, 220) verarbeitet wurden. Die nichtverarbeitete Teilstruktur wird ausgewählt 620, und die Schritte 625, 630, 635, 645, 650 und 655 werden wiederholt. Wenn beide Teilstrukturen des Paares verarbeitet wurden, bestimmt der Prozeß 600, ob es weitere Paare von Teilstrukturen (210, 220) in dem ausgewählten Molekül 605 gibt, die durch rotierbare Bindungen 218 verbunden sind. Wenn es weitere Paare von Teilstrukturen gibt, die durch rotierbare Bindungen in dem Molekül verbunden sind, wird der Prozeß wiederholt 672, beginnend mit Schritt 615.Once all the voting records, using the features in the entries 412A - 412N the vector information 420 for the record 425 that were accessed, were entered in the reconciliation table, determined 665 the process 600 whether there are more to create 630 Tuples from the members of the reference tuple reconciliation set 625 gives. If there are more to create 665 Tuples are there, the steps become 630 . 635 . 645 . 650 and 655 repeated. If there is no one to create 665 Tuple gives more, the test molecule becomes 650 checked 670 to determine whether both subtrees are in the selected one 620 Pair of substructures ( 210 . 220 ) were processed. The unprocessed substructure is selected 620 , and the steps 625 . 630 . 635 . 645 . 650 and 655 are repeated. If both substructures of the pair have been processed, the process determines 600 whether there are more pairs of substructures ( 210 . 220 ) in the selected molecule 605 There are rotatable bonds 218 are connected. If there are other pairs of substructures linked by rotatable bonds in the molecule, the process is repeated 672 , starting with step 615 ,

Nachdem das Verarbeiten des ausgewählten Testmoleküls 605 beendet ist, ist die Abstimmmungstabelle 700, die in 7 dargestellt ist, durch Abstimmungsdatensätze 725 besiedelt worden, die durch die Einträge in die Datenstruktur 400 erzeugt wurden.After processing the selected test molecule 605 is finished, is the voting table 700 , in the 7 represented by voting records 725 settled by the one sluggish in the data structure 400 were generated.

Jeder Datensatz 725 der Abstimmungstabelle hat eine Adresse 710 und enthält die Informationen über die Identität des Referenzmoleküls, die Informationen über die Identität der starren Referenz-Teilstruktur und Plazierungsinformationen für jeden Vektor 238, dessen Darstellungen in den Einträgen 412A-412N des Datensatzes 425 enthalten sind, auf den durch den Testrahmen-Tupelindex 465i zugegriffen wird.Every record 725 the voting table has an address 710 and contains information about the identity of the reference molecule, information about the identity of the rigid reference substructure, and placement information for each vector 238 , whose representations in the entries 412A - 412N of the record 425 on the test frame tuple index 465i is accessed.

Bei einem bevorzugten Ausführungsbeispiel werden die Molekülidentität 736 und/oder die Identität 738 der starren Teilstruktur 210 und/oder die Identität der starren Teilstruktur 220 benutzt, um die Adresse 710 jedes Abstimmungsdatensatzes zu errechnen. Die Adresse 710 wird bestimmt durch das oben beschriebene 'Schritt'-Berechnungsverfahren. Bei einem alternativen, bevorzugten Ausführungsbeispiel können die Plazierungsinformationen für jeden Vektor 238, dessen Darstellungen in den Einträgen 412A-412N des Datensatzes 425 enthalten sind, benutzt werden, um die Adresse 710 des Datensatzes 725 abzuleiten.In a preferred embodiment, the molecule identity becomes 736 and / or the identity 738 the rigid substructure 210 and / or the identity of the rigid substructure 220 used to the address 710 to calculate each voting record. The address 710 is determined by the above-described 'step' calculation method. In an alternative preferred embodiment, the placement information for each vector 238 , whose representations in the entries 412A - 412N of the record 425 are included, used to address 710 of the record 725 derive.

Wir kehren jetzt zur 6 zurück. Die besiedelte Abstimmungstabelle 700 wird benutzt, um zu bestimmen: (i) die Identität von einem oder mehreren der Moleküle in der Datenbank D, (ii) die Identität einer oder mehrerer der starren Teilstrukturen in jedem Molekül und (iii) die Position und Orientierung des Vektors 238, der jeder starren Teilstruktur zugeordnet ist, so daß (a) eine starre Teilstruktur in jedem solchen Molekül der beste Kandidat für die Übereinstimmung mit einer Teilstruktur in dem Testmolekül ist und (b), wenn solch eine starre Teilstruktur in dem globalen Koordinatenrahmen 235 plaziert wird, so daß die Position und Orientierung des zugehörigen Vektors 238 mit demjenigen übereinstimmt, der in (iii) bestimmt wurde, jedes identifizierte Molekül sich in der besten Ausrichtung mit dem Testmolekül befindet. Beachte, daß es mehr als ein Molekül in der Datenbank D geben kann, die beste Kandidaten für eine Übereinstimmung mit einer Teilstruktur in dem Testmolekül sind und, dies ist eine Folge davon, daß eine bestimmte Struktur des Testmoleküls von mehr als einem der Moleküle in der Datenbank D gemeinsam benutzt wird. Das Bestimmen dieser Antworten (i), (ii) und (iii) kann durch Auswählen derjenigen Datensätze aus der Abstimmungstabelle 700 mit einer Zählung (Häufigkeit) erfolgen, die einen vorgegebenen Schwellwert 675 überschreitet. Diese ausgewählten Datensätze 725 stellen die rekonstruierten Merkmale mit den Eigenschaften (a) und (b) oben dar. Für die Zwecke der hier beschriebenen Erfindung genügt es, die Identität des Moleküls (oder der Moleküle) in den Antworten zu berichten, die einen vorgegeben Schwellwert überschritten.We return now 6 back. The populated voting table 700 is used to determine: (i) the identity of one or more of the molecules in database D, (ii) the identity of one or more of the rigid substructures in each molecule, and (iii) the position and orientation of the vector 238 which is associated with each rigid substructure such that (a) a rigid substructure in each such molecule is the best candidate for conforming to a substructure in the test molecule, and (b) if such a rigid substructure is in the global coordinate frame 235 is placed so that the position and orientation of the associated vector 238 is identical to that determined in (iii), each identified molecule is in the best alignment with the test molecule. Note that there may be more than one molecule in the database D, which are the best candidates for matching a partial structure in the test molecule and, as a consequence of this, a particular structure of the test molecule of more than one of the molecules in the test molecule Database D is shared. Determining these responses (i), (ii) and (iii) may be accomplished by selecting those records from the reconciliation table 700 with a count (frequency) taking a predetermined threshold 675 exceeds. These selected records 725 represent the reconstructed features having properties (a) and (b) above. For purposes of the invention described herein, it is sufficient to report the identity of the molecule (or molecules) in the responses that exceeded a predetermined threshold.

Gelegentlich kann es erwünscht sein, diese aus der Tabelle 700 erhaltene Antworten, die sich auf das gleiche Molekül aus der Datenbank D beziehen, zu benutzen, um die Konformation des Moleküls zu bilden, die in Übereinstimmung mit möglichst vielen dieser Antworten ist. Wenn das fragliche Molekül in diese Konformation gebracht wird, ist es in der bestmöglichen Ausrichtung mit dem Testmolekül als Ganzem. Die Qualität der Ausrichtung zwischen zwei Molekülen variiert als Funktion des tatsächlichen Grades der Ähnlichkeit zwischen ihnen, wenn alle diese Konformationen des identifizierten Moleküls in Betracht gezogen werden. Unglücklicherweise macht die keinen Zwängen unterliegende Art der Antworten, die aus der Tabelle 700 erhalten werden, eine beträchtlich Investition an Computerleistung nötig. Dieser Punkt ist bereits oben in dem Paragraphen angesprochen worden, der den Unterschied zwischen 'Identifizierung' und 'Erkennung' diskutiert.Occasionally, it may be desirable to remove these from the table 700 To use obtained responses relating to the same molecule from the database D, to form the conformation of the molecule that is in agreement with as many of these answers as possible. When the molecule in question is placed in this conformation, it is in the best possible alignment with the test molecule as a whole. The quality of alignment between two molecules varies as a function of the actual degree of similarity between them, taking into account all of these conformations of the identified molecule. Unfortunately, the unconstrained nature of the answers made in the table 700 A considerable investment in computer performance is needed. This point has already been raised in the paragraph above, which discusses the difference between 'identification' and 'recognition'.

Mit dieser Offenbarung könnte ein Fachmann äquivalente alternative Ausführungsbeispiel für die Molekülidentifizierung entwickeln, die ebenfalls innerhalb der Absicht der Erfinder liegen.With this revelation could a professional equivalent alternative embodiment for the molecular identification which are also within the intention of the inventors.

Claims (51)

Verfahren zum Speichern einer Darstellung eines oder mehrerer Referenzmoleküle in einem Speicher eines Computersystems, um in einem anderen Verfahren strukturelle Ähnlichkeiten mit einem Testmolekül und Eigenschaften des Testmoleküls vorhersagen zu können, wobei das Verfahren zum Speichern auf einem Computersystem ausgeführt wird und die Schritte umfaßt des: a. Identifizierens entweder einer oder mehrerer starrer Teilstrukturen des Referenzmoleküls, wobei jede der starren Teilstrukturen einen oder mehrere Atomplätze aufweist, jeder der Atomplätze mit keinem oder mehreren Atomplätzen in der starren Teilstruktur durch eine nichtrotierbare Bindung verbunden ist, wobei jede starre Teilstruktur eine globale Position und eine globale Orientierung in einem globalen Koordinatenrahmen aufweist; b. Definierens eines Vektors mit einer Größe und Richtung mit einer festen Position und Orientierung hinsichtlich der starren Teilstruktur; c. Auswählens einer Menge von drei oder mehr Plätzen, wobei der Satz von Plätzen ein Rahmentupel bildet, zumindest einer der Plätze nichtkollinear mit den restlichen Plätzen ist, die Plätze sich in einer festen Position bezüglich der starren Teilstruktur befinden und das Rahmentupel einen dreidimensionalen, schiefwinkligen, lokalen Koordinatenrahmen definiert; d. Auswählens eines oder mehrerer der Rahmentupel und Erzeugens eines Rahmentupelfeldes mit Informationen, die jedem der ausgewählten Rahmentupel zugeordnet sind, und e. Speicherns eines Datensatzes in einer Datenstruktur, wobei die Datenstruktur eine Vielzahl von Datensätzen aufweist, jeder Datensatz das Rahmentupelfeld und ein Vektorfeld enthält, das Vektorfeld Vektorinformationen enthält, die sich auf den Vektor wie auch auf Informationen über die Identitäten des Moleküls und der starren Teilstruktur beziehen, die die Plätze aufweist, die das Rahmentupel bilden.A method of storing a representation of one or more reference molecules in a memory of a computer system to predict structural similarities with a test molecule and properties of the test molecule in another method, the method being performed for storage on a computer system, comprising the steps of: a , Identifying either one or more rigid substructures of the reference molecule, each of the rigid substructures having one or more atomic sites, each of the atomic sites being connected to one or more atoms in the rigid substructure by a nonrotatable bond, each rigid substructure having a global position and a global position Having orientation in a global coordinate frame; b. Defining a vector having a magnitude and direction with a fixed position and orientation with respect to the rigid substructure; c. Selecting a set of three or more squares, wherein the set of squares forms a frame tuple, at least one of the squares is non-collinear with the remaining squares, the squares are in a fixed position relative to the rigid substructure, and the frame tuple is a three-dimensional, skewed, lo defined coordinate frame; d. Selecting one or more of the frame tuples and generating a frame tuple field with information associated with each of the selected frame tuples, and e. Storing a data set in a data structure, the data structure having a plurality of data sets, each data set containing the frame dupply field and a vector field containing vector field vector information relating to the vector as well as information about the identities of the molecule and the rigid substructure, which has the places that form the frame tuple. Verfahren nach Anspruch 1, bei dem die Information in dem Rahmentupelfeld ein Index ist.The method of claim 1, wherein the information in the frame dupefield is an index. Verfahren nach Anspruch 2, bei dem der Index aus geometrischen Informationen abgeleitet wird, die sich auf die Menge von Plätzen beziehen.The method of claim 2, wherein the index consists of geometric information is derived, referring to the crowd of places Respectively. Verfahren nach Anspruch 3, bei dem der Index von einem oder mehreren der Abstände zwischen irgendwelchen zwei Plätzen in der Menge von Plätzen abgeleitet wird.The method of claim 3, wherein the index of one or more of the distances between any two places in the amount of places is derived. Verfahren nach Anspruch 3, bei dem der Index von einem oder mehreren der Winkel in einem oder mehreren der Dreiecke abgeleitet wird, die durch irgendwelche drei Plätze in der Menge der Plätze gebildet werden.The method of claim 3, wherein the index of one or more of the angles in one or more of the triangles derived by any three places in the set of places become. verfahren nach Anspruch 3, bei dem der Index aus einer Kombination von keinem oder mehreren Winkeln in einem oder mehreren der Dreiecke abgeleitet wird, die durch irgendwelche drei Plätze in der Menge der Plätze gebildet werden, und keinem oder mehreren Abständen zwischen irgend zwei Plätzen aus der Menge der Plätze.The method of claim 3, wherein the index is a combination of one or more angles in one or more angles several of the triangles are derived by any three courts in the amount of places formed, and no or more distances between any two places the amount of places. Verfahren nach Anspruch 2, bei dem der Index aus physikalischen Informationen abgeleitet wird, die charakteristisch sind für einen oder mehrere der Plätze des Rahmentupels.The method of claim 2, wherein the index consists of physical information is derived that is characteristic are for one or more of the places of the frame tuple. Verfahren nach Anspruch 2, bei dem der Index aus chemischen Informationen abgeleitet wird, die charakteristisch für einen oder mehrere der Plätze des Rahmentupels sind.The method of claim 2, wherein the index consists of derived chemical information that is characteristic of a or more of the places of the frame tuple are. Verfahren nach Anspruch 2, bei dem der Index aus geometrischen Informationen abgeleitet wird, die sich auf keinen oder mehrere der Plätze des Rahmentupels beziehen, aus physikalischen Informationen, die charakteristisch sind für keinen oder mehrere der Plätze des Rahmentupels, und aus chemischen Informationen, die charakteristisch sind für keinen oder mehrere der Plätze des Rahmentupels.The method of claim 2, wherein the index consists of geometric information is derived that does not refer to any or more of the places of the frame tuple, from physical information that is characteristic are for no or more of the seats of the frame tuple, and from chemical information that is characteristic are for no or more of the seats of the frame tuple. Verfahren nach Anspruch 1, bei dem die Vektorinformationen eindeutig den Vektor in dem schiefwinkligen, lokalen Koordinatenrahmen identifizieren und die Vektorinformationen bei irgendeiner Rotation und Translation der Menge von Plätzen, die den schiefwinkligen, lokalen Koordinatenrahmen definieren, invariant bleiben.The method of claim 1, wherein the vector information clearly the vector in the skewed, local coordinate frame identify and the vector information on any rotation and translation of the set of places, which define the skewed, local coordinate frames, remain invariant. Verfahren nach Anspruch 10, bei dem die Vektorinformationen Informationen über eine Identität, eine Position, eine Vektorgröße und eine Vektororientierung jedes der Vektoren sind, die in dem lokalen, schiefwinkligen Koordinatenrahmen dargestellt sind.The method of claim 10, wherein the vector information information about an identity, a position, a vector size and a Vector orientation of each of the vectors that are in the local, skewed coordinate frame are shown. Verfahren nach Anspruch 11, bei dem die Vektorinformationen die Projektion des Vektors auf eine oder mehrere der Achsen des lokalen, schiefwinkligen Koordinatenrahmens enthalten.The method of claim 11, wherein the vector information the projection of the vector on one or more of the axes of the local, skewed coordinate frame included. Verfahren nach Anspruch 11, bei dem zwei oder mehrere der Plätze Atomplätze des Moleküls sind, das einen ersten und einen zweiten Atomplatz einschließt, und der erste und zweite Atomplatz die Position, die Größe und die Orientierung des Vektors definieren.The method of claim 11, wherein two or more of places atomic sites of the molecule are, which includes a first and a second atomic place, and the first and second atomic place the position, the size and the Define orientation of the vector. Verfahren nach Anspruch 11, bei dem die Vektorinformationen eine Punktposition eines festen Punktes längs der Länge des Vektors, die Vektorgröße und die Vektororientierung einschließen.The method of claim 11, wherein the vector information a dot position of a fixed point along the length of the vector, the vector size and the Include vector orientation. Verfahren nach Anspruch 11, bei dem die Vektorinformationen die Position einschließen, die durch zwei Vektorplätze bestimmt ist, wobei die Vektorplätze Plätze in der Menge von Plätzen sind und die Vektorinformationen weiter die Größe und die Orientierung des Vektors einschließen.The method of claim 11, wherein the vector information to include the position through two vector spaces is determined, the vector places courts in the amount of places are and the vector information further the size and orientation of the Vector. Verfahren nach Anspruch 15, bei dem einer oder mehrere der Vektorplätze ein Atomplatz ist.The method of claim 15, wherein one or more the vector places is a nuclear place. Verfahren nach Anspruch 16, bei dem einer oder mehrere der Vektorplätze ein Nicht-Atomplatz ist.The method of claim 16, wherein one or more the vector places is a non-nuclear place. Verfahren nach Anspruch 11, bei dem die Position, die Größe und Orientierung des Vektors durch eine Matrix dargestellt werden.Method according to claim 11, wherein the position, the size and orientation of the vector are represented by a matrix. Verfahren nach Anspruch 2, bei dem die Vektorinformationen weiter andere Informationen einschließen, die für Prüfzwecke verwendbar sind.The method of claim 2, wherein the vector information further include other information that may be used for testing purposes. Verfahren nach Anspruch 19, bei dem die anderen Informationen eine oder mehrere der folgenden Informationen einschließen: Molekülidentität, Teilstrukturidentität, Atomplatzinformationen und Nicht-Atomplatzinformationen und Informationen über die Mächtigkeit und die Identität des Vektors.The method of claim 19, wherein the others Information includes one or more of the following: molecular identity, partial structure identity, atomic site information and non-nuclear-site information and information about the cardinality and the identity of the vector. Verfahren nach Anspruch 20, bei dem die anderen Informationen weiter eine oder mehrere der folgenden Informationen einschließen: physikalische Eigenschaften und chemische Eigenschaften.The method of claim 20, wherein the others Information further includes one or more of the following information lock in: physical properties and chemical properties. Verfahren nach Anspruch 1, bei dem einer oder mehrere der Plätze in der Menge von Plätzen ein Atomplatz ist, der starr mit der starren Teilstruktur verbunden ist.The method of claim 1, wherein one or more of places in the amount of places is an atomic space that is rigidly connected to the rigid substructure is. Verfahren nach Anspruch 1, bei dem einer oder mehrere der Plätze ein Nicht-Atomplatz ist.The method of claim 1, wherein one or more of courts is a non-nuclear place. Verfahren nach Anspruch 1, bei dem einer der Plätze ein erster Platz auf einer ersten, starren Teilstruktur ist und ein anderer Platz ein zweiter Platz auf einer zweiten, starren Teilstruktur ist und die ersten und zweiten starren Teilstrukturen über eine rotierbare Bindung verbunden sind.The method of claim 1, wherein one of the places first place on a first, rigid substructure is and another place a second place on a second, rigid substructure is and the first and second rigid substructures over one rotatable bond are connected. Verfahren nach Anspruch 24, bei dem die ersten und zweiten Plätze irgendwelche der folgenden sein können: ein Atomplatz und ein Nicht-Atomplatz.The method of claim 24, wherein the first and second places Any of the following can be: a nuclear place and a Non-atomic site. Verfahren nach Anspruch 25, bei dem der erste Platz ein erster Atomplatz ist, der zweite Platz ein zweiter Atomplatz ist und der Vektor die Position, Größe und Orientierung einer rotierbaren Bindung besitzt, die die ersten und zweiten Atomplätze verbindet.The method of claim 25, wherein the first place a first atomic place is, the second place a second atomic place and the vector is the position, size and orientation of a rotatable one Has binding that connects the first and second atomic sites. Verfahren nach Anspruch 1, weiter den Schritt umfassend des: f. Wiederholens der Schritte d und e für eines oder mehrere der nichtausgewählten Rahmentupel.The method of claim 1, further comprising the step of: f. Repeating steps d and e for one or more of the unselected frame tuples. Verfahren nach Anspruch 27, bei dem die Schritte d und e für alle der nichtausgewählten Rahmentupel wiederholt werden.The method of claim 27, wherein the steps d and e for all of the non-selected Frame tuple are repeated. Verfahren nach Anspruch 27, umfassend den weiteren Schritt des: g. Wiederholens der Schritte c-f für eine oder mehrere der nichtausgewählten Mengen von Plätzen.The method of claim 27, comprising the further Step of: G. Repeating steps c-f for one or several of the unelected Sets of places. Verfahren nach Anspruch 29, bei dem die Schritte c-f für alle der nichtausgewählten Mengen von Plätzen wiederholt werden.The method of claim 29, wherein the steps c-f for all of the non-selected Sets of places be repeated. Verfahren nach Anspruch 29, umfassend den weiteren Schritt des: h. Wiederholens der Schritte b-g für die verbleibende starre Teilstruktur in dem Fall, in dem ein Paar von Teilstrukturen ausgewählt wurde.The method of claim 29, comprising the further Step of: H. Repeating steps b-g for the remaining one rigid substructure in the case where a pair of substructures selected has been. Verfahren nach Anspruch 31, bei dem die Schritte b-g für alle die nichtausgewählten Paare von Teilstrukturen wiederholt werden, die mit einer rotierbaren Bindung verbunden sind.The method of claim 31, wherein the steps b-g for all the non-selected Pairs of substructures are repeated, with a rotatable one Bond are connected. Verfahren nach Anspruch 31, umfassend den weiteren Schritt des: i. Wiederholens der Schritte a-h für eines oder mehrere der nichtausgewählten Moleküle.The method of claim 31, comprising the further Step of: i. Repeating steps a-h for one or more of the non-selected Molecules. Verfahren nach Anspruch 33, bei dem die Schritte a-i für alle nichtausgewählten Moleküle wiederholt werden.The method of claim 33, wherein the steps a-i for all unelected molecules be repeated. Verfahren nach Anspruch 3, bei dem der Index aus Bereichen abgeleitet wird, die durch Benutzen von zumindest drei Plätzen in der Teilmenge von Plätzen gebildet wird.The method of claim 3, wherein the index is Divisions are derived by using at least three seats in the subset of places is formed. Verfahren nach Anspruch 3, bei dem der Index aus den Flächenverhältnissen gebildet wird, die durch Benutzen von zumindest drei Plätzen in der Untermenge von Plätzen gebildet werden.The method of claim 3, wherein the index is formed from the area ratios generated by Using at least three places are formed in the subset of places. Verfahren zum Bestimmen der Identität eines oder mehrerer Referenzmoleküle, die strukturell ähnlich einem Testmolekül sind, um Eigenschaften des Testmoleküls vorhersagen zu können, wobei das Verfahren auf einem Computersystem ausgeführt wird und die Schritte umfaßt des: a. Identifizierens einer oder mehrerer starrer Testteilstrukturen des Testmoleküls, wobei jede der starren Testteilstrukturen einen oder mehrere Atomplätze aufweist und jeder der Atomplätze mit keinem oder mehr Atomplätzen in der starren Testteilstruktur über eine nichtrotierbare Bindung verbunden ist, jede starre Testteilstruktur eine bestimmte Position und eine bestimmte Orientierung in einem dreidimensionalen globalen Referenzrahmen aufweist, b. Auswählens einer Menge von drei oder mehr Testplätzen, wobei die Menge der Testplätze ein Testrahmentupel ist, zumindest einer der Testplätze nicht kollinear mit den restlichen Testplätzen ist, die Testplätze sich in einer festen Position im Hinblick auf die starre Testteilstruktur befinden und jedes der Testrahmentupel einen dreidimensionalen, schiefwinkligen, lokalen Testkoordinatenrahmen bildet; c. Auswählens eines oder mehrerer der Testrahmentupel und Erzeugens eines Testrahmen-Tupelindex aus Informationen, die dem ausgewählten Testrahmentupel zugeordnet sind; d. Benutzens des Testrahmen-Tupelindex, Zugreifens auf einen oder mehrere der Datensätze in einer Datenstruktur, die in dem Speicher gespeichert ist, wobei die Datenstruktur eine Vielzahl von Datensätzen aufweist, jeder der Datensätze ein Referenzrahmen-Tupelfeld und ein Feld für Referenzvektorinformationen aufweist, wobei das Referenzrahmen-Tupelfeld einen Referenzrahmen-Tupelindex besitzt, der aus einem Referenzrahmentupel erzeugt wird, das durch drei oder mehr Referenzplätze auf einer starren Referenzteilstruktur eines der Referenzmoleküle definiert ist, und das Feld für den Referenzvektor einen oder mehrere Einträge aufweist, jeder Eintrag Referenzvektorinformationen über den Referenzvektor enthält, der einen Betrag und eine Richtung und eine feste Position und eine feste Orientierung im Hinblick auf eine oder mehrere der starren Referenzteilstrukturen aufweist, wobei jeder Eintrag weiter Referenzrahmen-Tupelinformationen über das Referenzrahmentupel, Identitätsinformationen des Referenzmoleküls und Informationen über eine starre Teilstruktur des Referenzrahmens besitzt; e. Aufbauens für jeden Eintrag in jedem Datensatz mit einem Referenzrahmen-Tupelindex, der mit dem Testrahmen-Tupelindex übereinstimmt, eines Testvektors für jeden Referenzvektor in dem schiefwinkligen, lokalen Testkoordinatenrahmen, um den Testvektor in dem globalen Koordinatenrahmen zu plazieren; f. Erzeugens für jeden Eintrag in jedem Datensatz mit einem Referenzrahmen-Tupelindex, der mit dem Testrahmen-Tupelindex übereinstimmt, eines Abstimmungsdatensatzes in einer Abstimmungsdatenstruktur, wobei der Abstimmungsdatensatz die Identitätsinformation des Referenzmoleküls, die Identitätsinformation der starren Referenzteilstruktur, ein Feld für die Position des Testvektors mit einem Positionswert und ein Feld für die Orientierung des Testvektors mit einem Orientierungswert enthält, wobei der Positionswert mit der Position des Testvektors übereinstimmt, der Orientierungswert mit der Orientierung des Testvektors übereinstimmt, die Identitätsinformationen des Moleküls mit der Identität des Referenzmoleküls übereinstimmen und das Feld für die Informationen der starren Referenzteilstruktur mit der Identität der Referenzteilstruktur übereinstimmt.Method for determining the identity of a or more reference molecules, the structurally similar one test molecule are to predict properties of the test molecule, wherein the method is performed on a computer system and includes the steps of: a. Identifying one or more rigid test substructures of the Test molecule, wherein each of the rigid test substructures has one or more atomic sites and each of the atomic sites with no or more atoms in the rigid test part structure over a nonrotatable bond, any rigid test part structure a specific position and orientation in one has three-dimensional global reference frame, b. Select one Amount of three or more test stations being the set of test places a test frame tuple is not, at least one of the test sites collinear with the remaining test sites is, the test sites themselves in a fixed position with respect to the rigid test part structure and each of the test frame tuples has a three-dimensional, skewed, local test coordinate frame forms; c. Select one or more of the test frame tuples and generating a test frame tuple index from information associated with the selected test frame tuple are; d. Using the test frame tuple index, accessing one or more of the records in a data structure stored in the memory, wherein the data structure has a plurality of records, each of the records Reference frame tuple field and a field for reference vector information wherein the reference frame tuple field has a reference frame tuple index which is generated from a Referenzrahmentupel by three or more reference places defined on a rigid reference substructure of one of the reference molecules is, and the field for the reference vector has one or more entries, each entry Reference vector information via contains the reference vector, one amount and one direction and one fixed position and one fixed orientation with regard to one or more of the rigid ones Reference frame structures, wherein each entry further reference frame tuple information on the Reference frame tuple, identity information of the reference molecule and information about has a rigid substructure of the reference frame; e. building up for each Entry in each record with a reference frame tuple index, that matches the test frame tuple index, a test vector for each reference vector in the skewed, local test coordinate frame, to place the test vector in the global coordinate frame; f. Generate for each entry in each record with a reference frame tuple index, that matches the test frame tuple index, a voting record in a voting data structure, wherein the voting record the identity information of the reference molecule, the identity information the rigid reference substructure, a field for the position of the test vector with a position value and a field for the orientation of the test vector containing an orientation value, wherein the position value coincides with the position of the test vector, the orientation value agrees with the orientation of the test vector, the identity information of the molecule with the identity of the reference molecule and the field for the Information of the rigid reference substructure matches the identity of the reference substructure. Verfahren nach Anspruch 37, bei dem der Referenzrahmen-Tupelindex aus dem Referenzrahmentupel erzeugt wird und der Testrahmen-Tupelindex aus dem ausgewählten Testrahmentupel durch das gleiche Verfahren erzeugt wird.The method of claim 37, wherein the reference frame tuple index is selected from the Reference frame tuple is generated and the test frame tuple index the selected one Test frame tuple is generated by the same method. Verfahren nach Anspruch 37, umfassend den weiteren Schritt des: g. Wiederholens der Schritte c-f für eines oder mehrere der nichtausgewählten Testrahmentupel.The method of claim 37, comprising the further Step of: G. Repeating steps c-f for one or more of the non-selected Testrahmentupel. Verfahren nach Anspruch 37, bei dem die Schritte c-f für alle der nichtausgewählten Testrahmentupel wiederholt werden.The method of claim 37, wherein the steps c-f for all of the non-selected Test frame tuple be repeated. Verfahren nach Anspruch 39, umfassend den weiteren Schritt des: h. Wiederholens der Schritte b-g für eine oder mehrere der nichtausgewählten Mengen von Testplätzen.The method of claim 39, comprising the further Step of: H. Repeating steps b-g for one or several of the unelected Quantities of test sites. Verfahren nach Anspruch 41, bei dem die Schritte b-g für alle der nichtausgewählten Mengen von Plätzen wiederholt werden.The method of claim 41, wherein the steps b-g for all of the non-selected Sets of places be repeated. Verfahren nach Anspruch 41, umfassend den weiteren Schritt des: i. Wiederholens der Schritte a-g für eine oder mehrere der nichtausgewählten starren Testteilstrukturen.The method of claim 41, comprising the further Step of: i. Repeating steps a-g for one or several of the unelected rigid test substructures. Verfahren nach Anspruch 43, bei dem die Schritte a-g für alle der nichtausgewählten Testteilstrukturen wiederholt werden.The method of claim 43, wherein the steps a-g for all of the non-selected Test part structures are repeated. Verfahren nach Anspruch 43, bei dem eine Vielfachheit des Vorkommens bestimmt wird für einen oder mehrere der identischen Abstimmungsdatensätze für jede aus einer oder mehreren Mengen von identischen Abstimmungsdatensätzen.A method according to claim 43, wherein a multiplicity the occurrence is determined for one or more of the identical voting records for each one or more sets of identical voting records. Verfahren nach Anspruch 45, bei dem die Mengen der Abstimmungsdatensätze, die einen Vielfachheitswert unterhalb eines Schwellwertes aufweisen, eliminiert werden.A method according to claim 45, wherein the quantities of Voting records which have a multiplicity value below a threshold value, be eliminated. Verfahren nach Anspruch 45, bei dem der Datensatz der Abstimmungstabelle, der die höchste Vielfachheit des Vorkommens aufweist, die Identität des Referenzmoleküls enthält, das mit dem Testmolekül übereinstimmt, und die Identität der starren Referenzteilstruktur, die mit einem oder mehreren der starren Teilstrukturen des Testmoleküls übereinstimmt.The method of claim 45, wherein the data set the voting table, which has the highest multiplicity of occurrence has, the identity of the reference molecule contains that matches the test molecule, and the identity rigid reference substructure associated with one or more of the rigid partial structures of the test molecule coincides. Computersystem zum Speichern einer Darstellung eines oder mehrerer Referenzmoleküle in einem Speicher in dem Computersystem und zum Vergleichen eines oder mehrerer der Referenzmoleküle mit einem Testmolekül, um anhand der Ähnlichkeiten zwischen einem oder mehreren Referenzmolekülen mit dem Testmolekül Eigenschaften des Testmoleküls vorhersagen zu können, umfassend: a. eine Datenbank, die in dem Speicher gespeichert ist, wobei die Datenbank eine Darstellung eines oder mehrerer starrer Teilstrukturen jedes der Referenzmoleküle aufweist, jede der starren Teilstrukturen einen oder mehrere Atomplätze aufweist, jeder der Atomplätze mit keinem oder mehreren Atomplätzen in der starren Teilstruktur durch eine nichtrotierbare Bindung verbunden ist, wobei jede starre Teilstruktur eine globale Position und eine globale Orientierung in einem globalen Koordinatenrahmen aufweist; b. eine Menge von drei oder mehr Plätzen, wobei die Menge von Plätzen sich in einer ausgewählten starren Teilstruktur befindet, die Menge der Plätze ein Rahmentupel bildet, zumindest einer der Plätze nicht kollinear mit den restlichen Plätzen ist, die Plätze sich in einer festen Position hinsichtlich der ausgewählten starren Teilstruktur befinden und das Rahmentupel einen dreidimensionalen, schiefwinkligen, lokalen Koordinatenrahmen definiert, und c. eine Datenstruktur, die eine Vielzahl von Datensätzen aufweist, wobei jeder Datensatz ein Rahmentupelfeld enthält und ein Vektorfeld, und das Vektorfeld Vektorinformationen enthält, die sich auf jeden von einem oder mehreren Vektoren beziehen, wie auch Informationen über die Identitäten eines oder mehrerer der Moleküle und einer oder mehrerer der starren Teilstrukturen, wobei jeder der Vektoren eine Größe und eine Richtung besitzt und eine feste Position und Orientierung hinsichtlich der ausgewählten starren Teilstruktur und die ausgewählte starre Teilstruktur eine der starren Teilstrukturen ist.Computer system for storing a representation of a or more reference molecules in a memory in the computer system and for comparing a or more of the reference molecules with a test molecule, around the similarities between one or more reference molecules with the test molecule properties of the test molecule to be able to predict full: a. a database stored in memory where the database is a representation of one or more more rigid Having substructures of each of the reference molecules, each of the rigid Substructures has one or more atomic sites, each of the atomic sites with no or more atoms in the rigid part structure connected by a nonrotatable bond is, with each rigid substructure a global position and a has global orientation in a global coordinate frame; b. a lot of three or more places, the amount of places yourself in a selected one rigid substructure, the set of squares forms a frame tuple, at least one of the places not collinear with the remaining places, the places themselves in a fixed position with respect to the selected rigid substructure and the frame tuple have a three-dimensional, oblique, defines local coordinate frames, and c. a data structure, the a lot of records wherein each record contains a frame dupply field and a Vector field, and the vector field contains vector information that refer to each of one or more vectors, as well information about the identities one or more of the molecules and one or more of the rigid substructures, each of which Vectors one size and one Direction possesses and a firm position and orientation concerning the selected one rigid substructure and the selected rigid substructure one the rigid substructures is. Computersystem nach Anspruch 48, weiter aufweisend eine Abstimmungsdatenstruktur, wobei die Abstimmungsdatenstruktur eine Vielzahl von Abstimmungsdatensätzen enthält, jeder der Abstimmungsdatensätze Informationen enthält, die einschließen die Identität eines Referenzmoleküls, die Identität der starren Teilstruktur eines Referenzrahmens und Plazierungsinformationen für jeden von einem oder mehreren Testvektoren in dem globalen Koordinatenrahmen, der einen Testrahmen-Tupelindex aufweist, der der gleiche ist wie der Tupelindex eines Referenzrahmens, der dem Rahmentupelfeld und dem Vektorfeld zugeordnet ist, wobei der Testrahmen-Tupelindex für jedes von einem oder mehreren ausgewählten Testrahmentupeln des Testmoleküles und aus Informationen erzeugt wird, die dem ausgewählten Testrahmentupel zugeordnet sind, wobei jedes der ausgewählten Testrahmentupel aus einer Menge von drei oder mehr Testplätzen des Testmoleküls gebildet wird, zumindest einer der Testplätze nichtkollinear mit den restlichen Testplätzen ist, die Testplätze sich in einer festen Position hinsichtlich der starren Testteilstruktur auf dem Testmolekül befinden und jedes der Testrahmentupel einen dreidimensionalen, schiefwinkligen, lokalen Testkoordinatenrahmen definiert.The computer system of claim 48, further comprising a reconciliation data structure, wherein the reconciliation data structure contains a plurality of voting records, each of the voting records information contains which include the identity a reference molecule, the identity the rigid substructure of a reference frame and placement information for each of one or more test vectors in the global coordinate frame, which has a test frame tuple index that is the same as the one Tuple index of a reference frame, which corresponds to the frame dupply field and the Vector field is assigned, wherein the test frame tuple index for each of one or more chosen Test frame duping of the test molecule and generated from information corresponding to the selected test frame tuple each of the selected test frame tuples are assigned from a Amount of three or more test sites of the test molecule will, at least one of the test sites is not collinear with the remaining test sites, the test sites themselves in a fixed position with respect to the rigid test part structure on the test molecule and each of the test frame tuples has a three-dimensional, skewed, local test coordinate frame defined. Computersystem nach Anspruch 49, bei dem eine Vielfachheit des Vorkommens für einen oder mehrere identische Abstimmungsdatensätze in jeder von einer oder mehreren Mengen identischer Abstimmungsdatensätze bestimmt wird.The computer system of claim 49, wherein a multiplicity of the occurrence for one or more identical voting records in each of one or more several sets of identical voting records. Computersystem nach Anspruch 50, bei dem die Mengen von Abstimmungsdatensätzen, die einen Vielfachheitswert unterhalb eines Schwellwertes aufweisen, eliminiert werden.The computer system of claim 50, wherein the quantities of voting records, which have a multiplicity value below a threshold value, be eliminated.
DE19646624A 1995-12-22 1996-11-12 Method and computer system for identifying conformationally elastic molecules Expired - Lifetime DE19646624B4 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/577,759 US5752019A (en) 1995-12-22 1995-12-22 System and method for confirmationally-flexible molecular identification
US08/577,759 1995-12-22

Publications (2)

Publication Number Publication Date
DE19646624A1 DE19646624A1 (en) 1997-07-03
DE19646624B4 true DE19646624B4 (en) 2007-08-09

Family

ID=24310033

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19646624A Expired - Lifetime DE19646624B4 (en) 1995-12-22 1996-11-12 Method and computer system for identifying conformationally elastic molecules

Country Status (2)

Country Link
US (1) US5752019A (en)
DE (1) DE19646624B4 (en)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185506B1 (en) * 1996-01-26 2001-02-06 Tripos, Inc. Method for selecting an optimally diverse library of small molecules based on validated molecular structural descriptors
CA2245935C (en) 1996-01-26 2004-07-20 David E. Patterson Method of creating and searching a molecular virtual library using validated molecular structure descriptors
US6108666A (en) * 1997-06-12 2000-08-22 International Business Machines Corporation Method and apparatus for pattern discovery in 1-dimensional event streams
US6408308B1 (en) * 1998-01-29 2002-06-18 Incyte Pharmaceuticals, Inc. System and method for generating, analyzing and storing normalized expression datasets from raw expression datasets derived from microarray includes nucleic acid probe sequences
JPH11232291A (en) * 1998-02-16 1999-08-27 Seibutsu Bunshi Kogaku Kenkyusho:Kk Method for retrieving protein three-dimensional structure data base
US6014449A (en) * 1998-02-20 2000-01-11 Board Of Trustees Operating Michigan State University Computer-implemented system for analyzing rigidity of substructures within a macromolecule
EP1109919A2 (en) * 1998-08-27 2001-06-27 Massachusetts Institute Of Technology Rationally designed heparinases derived from heparinase i and ii
US7056504B1 (en) 1998-08-27 2006-06-06 Massachusetts Institute Of Technology Rationally designed heparinases derived from heparinase I and II
AUPP660698A0 (en) 1998-10-21 1998-11-12 University Of Queensland, The A method of protein engineering
US7779015B2 (en) * 1998-12-18 2010-08-17 Microsoft Corporation Logging and analyzing context attributes
US9183306B2 (en) 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
US6920616B1 (en) * 1998-12-18 2005-07-19 Tangis Corporation Interface for exchanging context data
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US7225229B1 (en) 1998-12-18 2007-05-29 Tangis Corporation Automated pushing of computer user's context data to clients
US6791580B1 (en) 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US6968333B2 (en) 2000-04-02 2005-11-22 Tangis Corporation Soliciting information based on a computer user's context
US6801223B1 (en) * 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US8181113B2 (en) * 1998-12-18 2012-05-15 Microsoft Corporation Mediating conflicts in computer users context data
US6513046B1 (en) * 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US7046263B1 (en) 1998-12-18 2006-05-16 Tangis Corporation Requesting computer user's context data
US6597996B1 (en) * 1999-04-23 2003-07-22 Massachusetts Institute Of Technology Method for indentifying or characterizing properties of polymeric units
US6343257B1 (en) * 1999-04-23 2002-01-29 Peptor Ltd. Identifying pharmacophore containing combinations of scaffold molecules and substituents from a virtual library
US7097973B1 (en) 1999-06-14 2006-08-29 Alpha Mos Method for monitoring molecular species within a medium
US6975944B1 (en) 1999-09-28 2005-12-13 Alpha Mos Method and apparatus for monitoring materials used in electronics
AU4351201A (en) * 2000-03-08 2001-09-17 Massachusetts Inst Technology Heparinase iii and uses thereof
US7464153B1 (en) 2000-04-02 2008-12-09 Microsoft Corporation Generating and supplying user context data
WO2001085334A2 (en) * 2000-05-09 2001-11-15 Pharmacia & Upjohn Chemical structure identification
CA2422059C (en) 2000-09-12 2012-05-15 Massachusetts Institute Of Technology Methods and products related to low molecular weight heparin
AUPR030900A0 (en) 2000-09-22 2000-10-12 Queensland University Of Technology Growth factor complex
WO2002033541A2 (en) * 2000-10-16 2002-04-25 Tangis Corporation Dynamically determining appropriate computer interfaces
US20020054130A1 (en) 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
US7709461B2 (en) * 2000-10-18 2010-05-04 Massachusetts Institute Of Technology Methods and products related to pulmonary delivery of polysaccharides
CA2427644A1 (en) * 2000-11-02 2002-07-25 Michael G. Hollars Method for self-validation of molecular modeling
US7155453B2 (en) * 2002-05-22 2006-12-26 Agilent Technologies, Inc. Biotechnology information naming system
KR20010085075A (en) * 2001-08-01 2001-09-07 조현정 Network based three dimensional chemical information providing system and chemical formula editor thereof
US7096125B2 (en) * 2001-12-17 2006-08-22 Honeywell International Inc. Architectures of sensor networks for biological and chemical agent detection and identification
AUPR981002A0 (en) * 2002-01-02 2002-01-31 Proteome Systems Ltd 2 Dimensional structure queries
US7031969B2 (en) * 2002-02-20 2006-04-18 Lawrence Technologies, Llc System and method for identifying relationships between database records
US6671628B2 (en) 2002-03-04 2003-12-30 Chemnavigator, Inc. Methods for identifying a molecule that may bind to a target molecule
US20040034481A1 (en) * 2002-08-16 2004-02-19 Hurst John R. Methods for identifying a prospective binding site on a target molecule and for characterizing a site on a target molecule
US20100143442A1 (en) 2003-02-05 2010-06-10 Queensland University Of Technology Growth factor complexes and modulation of cell migration and growth
AU2003900481A0 (en) 2003-02-05 2003-02-20 Queensland University Of Technology Synthetic modulators of cell migration and growth
US7672791B2 (en) * 2003-06-13 2010-03-02 International Business Machines Corporation Method of performing three-dimensional molecular superposition and similarity searches in databases of flexible molecules
US20060052943A1 (en) * 2004-07-28 2006-03-09 Karthik Ramani Architectures, queries, data stores, and interfaces for proteins and drug molecules
EP1833964B1 (en) 2004-12-17 2013-05-22 Monash University Regulation of metalloprotease cleavage of cell surface proteins by adam10
US7840946B2 (en) * 2006-06-02 2010-11-23 International Business Machines Corporation System and method for matching a plurality of ordered sequences with applications to call stack analysis to identify known software problems
EP2253715A1 (en) 2009-05-14 2010-11-24 RWTH Aachen New targets for cancer therapy and/or diagnosis
EP2507261B1 (en) 2009-11-30 2016-12-21 Factor Therapeutics Limited Fibronectin: growth factor chimeras
WO2017181130A1 (en) * 2016-04-15 2017-10-19 Counsyl, Inc. Analytic results management database
CN110390997B (en) * 2019-07-17 2023-05-30 成都火石创造科技有限公司 Chemical molecular formula splicing method
CN111899807A (en) * 2020-06-12 2020-11-06 中国石油天然气股份有限公司 Molecular structure generation method, system, equipment and storage medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61223941A (en) * 1985-03-29 1986-10-04 Kagaku Joho Kyokai Method for storing and retrieving chemical structure
US4855931A (en) * 1988-03-25 1989-08-08 Yale University Stochastic method for finding molecular conformations
EP0496902A1 (en) * 1991-01-26 1992-08-05 International Business Machines Corporation Knowledge-based molecular retrieval system and method
US5386507A (en) * 1991-07-18 1995-01-31 Teig; Steven L. Computer graphics system for selectively modelling molecules and investigating the chemical and physical properties thereof
US5424963A (en) * 1992-11-25 1995-06-13 Photon Research Associates, Inc. Molecular dynamics simulation method and apparatus
US5577239A (en) * 1994-08-10 1996-11-19 Moore; Jeffrey Chemical structure storage, searching and retrieval system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GÜNER, Osman F., HENRY, Douglas R., PEARLMAN, Robert S.: Use of Flexible Queries for Searching Conformationally Flexible Molecules in Databases of Three-Dimensional Structures. IN: J.Chem.Inf. Comput.Sci., 1992, Vol. 32, S. 101-109: *
VAN DRIE, John H., WEININGER, David, MARTIN, Yvonne C., ALADDIN: An integrated tool for computer-assisted molecular design and pharma- cophore recognition from geometric, steric, and substructure searching of three-dimensional molecular structures. IN: Journal of Computer- Aided Molecular Design, 1989, Vol. 3, S. 225-251
VAN DRIE, John H., WEININGER, David, MARTIN, Yvonne C., ALADDIN: An integrated tool for computer-assisted molecular design and pharmacophore recognition from geometric, steric, and substructure searching of three-dimensional molecular structures. IN: Journal of ComputerAided Molecular Design, 1989, Vol. 3, S. 225-251 *

Also Published As

Publication number Publication date
DE19646624A1 (en) 1997-07-03
US5752019A (en) 1998-05-12

Similar Documents

Publication Publication Date Title
DE19646624B4 (en) Method and computer system for identifying conformationally elastic molecules
DE19642651B4 (en) Method and computer system for recognition of conformationally flexible molecules
DE69831777T2 (en) Framework for financial integration of business applications
DE69914896T2 (en) SYSTEM, METHOD AND COMPUTER PROGRAM PRODUCT FOR THE DISPLAY OF APPROXIMATION DATA IN A MULTI-DIMENSIONAL SPACE
DE10120869A1 (en) Multi-dimensional database access method involves generating index comprising multidimensional database, to access subject multidimensional database
EP1311989B1 (en) Automatic search method
DE602004003361T2 (en) SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS
DE102019000294A1 (en) Create company-specific knowledge graphs
DE10035043A1 (en) Building multi-dimensional indexing structure for use with linear optimising requests involves forming two convex envelopes of input data sets, some representing envelope apex points
DE10120870A1 (en) Navigating index for accessing multidimensional subject database involves displaying cell after user selection of error spreadsheet cell corresponding to selected cell in subject database
DE60035432T2 (en) SYSTEM FOR MANAGING THE RDBM FRAGMENTATION
DE19954534A1 (en) Joker search method for relational databank for directory service for e-mail system has forwards and backwards index established for provision of relational databank interrogation when joker has given position
DE102014204827A1 (en) Explode similar entities from a transactional database
DE10039537A1 (en) Computer command execution method for relational databank management determines relational databank source table alterations for formation of new tables to which source data is copied
DE202015009258U1 (en) Efficient annotation system for distributed version management systems
WO2006066556A2 (en) Relational compressed data bank images (for accelerated interrogation of data banks)
DE112020001874T5 (en) DATA EXTRACTION SYSTEM
EP1276056B1 (en) Method for managing a Database
DE112021001743T5 (en) VECTOR EMBEDDING MODELS FOR RELATIONAL TABLES WITH NULL OR EQUIVALENT VALUES
EP1966733A2 (en) Screening method
DE112016007194T5 (en) A method of generating a string dictionary, a method of searching a string dictionary, and a system of processing a string dictionary
DE112020000536T5 (en) EXPANDABLE DATA SKIP
DE19729911A1 (en) Documentation data organisation system
DE102022128157A1 (en) Computer-implemented method for standardizing part names
Loeser et al. Index Challenges in Native XML Database systems

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
R071 Expiry of right