DE69401662T2

DE69401662T2 - Datenbankstrukturen

Info

Publication number: DE69401662T2
Application number: DE69401662T
Authority: DE
Inventors: Michael Freeston
Original assignee: EUROP COMPUTER IND RES
Current assignee: EUROP COMPUTER IND RES
Priority date: 1993-07-07
Filing date: 1994-07-01
Publication date: 1997-08-21
Anticipated expiration: 2014-07-02
Also published as: EP0707725B1; US5701467A; DE69401662D1; EP0707725A1; ES2100082T3; JPH09500746A; AU679553B2; WO1995002222A1; JP3433803B2; AU7457194A

Description

Technisches Gebiet

Die Erfindung betrifft Datenbankstrukturen und insbesondere hierarchische Indexstrukturen zur Verwendung in Datenbankstrukturen, Verfahren zur Verwendung bei der Indexierung eines Datenraumes und Verfahren zum Suchen bzw. Recherchieren in Datenbankstrukturen. Ferner bezieht sich die Erfindung auf das elektronische Speichern einer n-dimensionalen Gesamtheit in Form eines n-dimensionalen Datenraumes in einem eindimensionalen Speicher eines Computers, und/oder das Übertragen und Wiederauffinden der n-dimensionalen Ganzheit in den oder aus dem Speicher des Computers.

Technischer Hintergrund

Räumliche Informationen können im Speicher eines Computers gespeichert werden. Eine räumliche Information besteht im wesentlichen aus Punkten in einem n- dimensionalen Datenraum. Beispielsweise können die Punkte Koordinaten der Mittelpunkte von Objekten auf einer Karte in zwei Dimensionen, oder aber die Orte eines Flugzeuges in einem dreidimensionalen Luftraum sein. Dieser Positionsinformation kann eine zusätzliche Information zugeordnet sein, die das Objekt an dem Ort - z.B. der Art eines Kartenobjektes, oder dem Rufzeichen und der Geschwindigkeit eines Flugzeuges - beschreiben.
In klassischer Weise sind Datenstrukturen in Datenbanksystemen auf Aufzeichnungen mit fester Struktur oder auf Tupel beschränkt. Die Struktur eines Tupels ist ein Satz von Feldern oder Attributen. Die Arten der Attribute sind auf wenige einfache Typen beschränkt, z.B. auf reell, ganzzahlig und kettenförmig.
Um einen Index zu einem Satz von Aufzeichnungen zu bauen, wird angenommen, daß alle Teile des Satzes die gleiche Struktur haben. Ein Schlüsselwert muß jedem von ihnen zugeordnet werden. Dieser Wert kann für die Aufzeichnung einmalig sein oder auch nicht. Im Prinzip kann dies der direkte Wert eines einzelnen Attributs oder mehrerer Attribute sein, oder er kann durch einen bestimmten Umwandlungsvorgang an einem oder mehreren Attributen erzeugt werden. Die Einheit des Speicheraufrufens für die Daten und den Index im Hauptspeicher oder im Sekundärspeicher ist eine Seite, und diese Seite ist praktisch gleichbleibend eine feste Größe.
Die Erfindung betrifft einen hierarchischen Index, der die Form einer Baumstruktur hat. Eine Baumstruktur setzt sich im allgemeinen aus einem Wurzelknoten, Zweigknoten und Blattknoten zusammen. In konventioneller Weise wird der Baum in invertierter Form dargestellt, d.h. mit der Wurzel oben. Ein den Baum durchsetzender Pfad wird durch die Folge von Knoten, die längs des Pfades vorhanden sind, definiert. Die Höhe des Baumes entspricht der Länge des längsten direkten Pfades, der von der Wurzel bis zum Blatt durchlaufen wird. Das Ausgangsauffächerungs-Verhältnis ist die Anzahl von Zweigen, die von einem Knoten in Richtung der Blätter führen. Dieses Verhältnis hat üblicherweise einen Bereich von zulässigen Werten, abhängig von den Einzelheiten des Designs und der Anwendung. Die Begrenzungen dieses Bereiches sind für alle Indexknoten die gleichen.
Die am besten bekannte und am meisten verwendete hierarchische Struktur zum dynamischen Indexieren eines Satzes von Aufzeichnungen in einer Datenbank ist der B- Baum. Der B-Baum nimmt den Wert eines einzelnen Attributs in einer Aufzeichnung, oder die lexikalische Verkettung verschiedener Attribute, wie den Indexschlüssel, an. Jeder Indexknoten entspricht einer Speicherseite und enthält einen geordneten Satz von Indexschlüsseln. Der Index ist als eine Hierarchie von Indexschlüsseln aufgebaut: Bei jedem bestimmten Pegel des Baumes enthält jeder Knoten einen geordneten Satz von Schlüsselwerten, und jedem Schlüssel ist ein Hinweis auf einen Knoten bei dem Indexpegel darunter zugeordnet. Jeder Schlüssel stellt eine obere (oder untere) Bindung an die Schlüsselwerte dar, die in dem Knoten gespeichert sind, auf den er hinweist. Bei dem niedrigsten Indexpegel weisen die Schlüssel auf die Datenseiten hin, die Aufzeichnungen innerhalb der durch die Indexschlüssel mit niedrigstem Pegel definierten Bereiche enthalten.
Wenn das Einführen einer zusätzlichen Aufzeichnung zur Folge hat, daß eine Datenseite überfließt, wird
1. die Seite in zwei Seiten um den mittleren Wert des Indexschlüssel-Attributs oder der Schlüsselindex-Attribute aufgeteilt,
2. eine Kopie des mittleren Schlüsselattribut-Wertes wird zusammen mit einem zusätzlichen Hinweis auf die neue Seite in den Indexblattknoten eingeführt, der den Hinweis auf die ursprüngliche Seite enthält. Ein Indexknoten besteht somit aus [Schlüssel-, Hinweis-] Paaren, die in der Reihenfolge des Schlüsselwertes gespeichert sind [Plus einem zusätzlichen Hinweis für die Unterteilung im extremen oberen oder unteren Bereich].
Wenn das Einführen in einen Indexknoten ein Überfließen zur Folge hat, wird der Indexknoten in ähnlicher Weise un seinen mittleren Schlüsselwert geteilt, und eine Kopie wird nach oben zusammen mit einem Hinweis auf die neu geschaffene Indexseite geschickt.
Im ungünstigsten Fall kann eine einzige Einführung einer Datenaufzeichnung eine Kette von Überläufen und Einfügungen bis zu und einschließlich der Wurzel des Indexbaums auslösen. Wenn die Wurzel geteilt wird, wird eine neue Wurzel erzeugt und die Höhe des Indexbaumes nimmt um eins zu. Auf diese Weise wächst ein baumstrukturierter Index nach oben (d.h. ein invertierter Baum), wenn die Anzahl von Datenseiten zunimmt.
Wenn alle Indexseiten die gleiche Größe haben, und wenn die maximale Anzahl von Schlüsseleingaben in jeder Indexseite den Wert F (das Ausgangsauffächerungs-Verhältnis), hat jeder Pegel des Index maximal das F-fache der Indexseiten wie der Pegel darüber, und es sind maximal F-mal soviele Datenseiten vorhanden wie Seiten in dem niedrigsten Indexpegel. Da sowohl Daten- als auch Indexseiten an ihren mittleren Werten gespalten sind, beträgt die Okkupanz im ungünstigsten Fall 50%, der statistische Mittelwert für den gesamten Index ist jedoch etwa 69%.
Die B-Baum-Struktur weist eine Reihe von attraktiven Eigenschaften auf, was der Grund dafür ist, daß diese Struktur praktisch überall für eine dynamische Indexierung in Datenbanksystemen verwendet wird. Insbesondere sind diese Eigenschaften:
1. Der Baum ist immer exakt abgeglichen, d.h., daß für eine bestimmte Größe des Baumes jeder direkte Pfad von der Wurzel zum Blatt die gleiche Länge hat;
2. wenn der volle Schlüssel einer individuellen Aufzeichnung spezifiziert wird (eine exakte Anpassungs-Abfrage), kann die Aufzeichnung immer über einen direkten Pfad von der Wurzel zum Blatt zugegriffen werden. Die Zugriffszeit für eine einzelne Aufzeichnung ist für eine gegebene Baumgröße konstant und vorhersagbar;
3. die Länge des direkten Pfades von der Wurzel zum Blatt nimmt nur logarithmisch in der Gesamtzahl von indexierten Aufzeichnungen zu, so daß z.B. ein fünfpegeliger Index ausreicht, um mehrere Terabytes von Daten zu indexieren;
4. die maximale Aktualisierungszeit für das Einführen oder Löschen einer einzigen Aufzeichnung ist ebenfalls logarithmisch in der Gesamtanzahl von indexierten Aufzeichnungen;
5. es ist eine garantierte minimale Inanspruchnahme (50%) der Daten- und Indexseiten gegeben;
6. die maximale Größe des Index ist stets direkt proportional der Menge an Daten;
7. alle vorstehend beschriebenen Eigenschaften werden sowohl beim Löschen als auch beim Einführen gesichert, d.h., die Leistung der Struktur nimmt nicht mit der Benutzung ab - sie ist voll dynamisch.
Viele Jahre lang haben Forscher versucht, eine Struktur zu finden, die die Eigenschaften des B-Baumes auf n Dimensionen verallgemeinert, d.h. einen Index bei n Attributen einer Aufzeichnung anstelle von einem. In idealer Weise sollte ein solcher Index die Eigenschaft haben, daß dann, wenn Werte für m aus n Schlüsselattributen spezifiziert werden (eine Teilanpassungs-Abfrage), die Zeit zum Auffinden aller Aufzeichnungen, die diese Kombination erfüllen, die gleiche sein soll, unabhängig davon, welche Kombination von m aus n gewählt wird.
Um dies zu erreichen, muß der Index symmetrisch in n Dimensionen sein. Es besteht dabei nicht mehr eine direkt definierte Ordnung zwischen den individuellen Aufzeichnungen nach ihren (Einzelschlüssel) Attributwerten. Jede Aufzeichnung muß als ein Punkt in einem n-dimensionalen Datenraum angesehen werden, der das kartesische Produkt der Domänen der n Index-Attribute ist.
Eine n-dimensionale Verallgemeinerung des B-Baumes muß diesen Datenraum in Teilräume oder Bereiche so trennen, daß die Eigenschaften des B-Baumes, wie sie vorstehend angegeben sind, erhalten bleiben. Insbesondere entspricht jeder Bereich einer Datenseite, und der Index stellt eine rekursive Unterteilung der Datenbereiche in Indexbereiche höheren Pegels dar.
Um eine Symmetrie in den n Dimensionen im Sinne der vorstehenden Definitionen zu erzielen, wird die folgende zusätzliche Eigenschaft benötigt:
8. die Anzahl von rekursiven Unterteilungen des Datenraumes, die zum Definieren der Grenzen eines jeden Datenbereiches erforderlich sind, soll (so weit wie möglich) in jeder Dimension die gleiche sein.
Für die Effizienz des Index ist es ferner wichtig, daß die folgenden Eigenschaften beibehalten werden:
9. die räumliche Verteilung der Datenbereiche soll so weit wie möglich der räumlichen Verteilung der Datenpunkte entsprechen;
10. die räumliche Verteilung der Indexbereiche bei jedem Pegel des Indexbaumes soll so weit wie möglich der räumlichen Verteilung beim nächst niedrigeren Pegel, und dem der Datenbereiche entsprechen;
11. die Darstellung von Leerraum soll minimiert werden.
Es hat sich als extrem schwierig herausgestellt, alle diese Forderungen zu erfüllen. Wie sich aus der großen Anzahl von Vorschlägen, die in den vergangenen Jahren gemacht worden sind, ergibt, wurden erhebliche Fortschritte erzielt, es verbleibt jedoch bei den heutigen Konstruktionen eine zugrundeliegende Inflexibilität, und vor vorliegender Erfindung gab es keine Lösung, die für pathologische Fälle nachweisbar geeignet wäre.
Einer der früheren Vorschläge ist eine mehrdimensionale Datei-Struktur, die als BANG- Datei (Balanced And Nested Grid file) bekannt ist. Hierzu wird beispielsweise auf "The BANG file: a new kind of grid file" von M W Freeston in Proc. ACM SIGMOD, Conference San Francisco, Juni 1987, oder "Advances in the design of the BANG file" von M W Freeston, Third International Conference on Foundations of Data Organisation and Algorithms, Paris, Juni 1989 hingewiesen. Die BANG-Datei hat ein baumstrukturiertes Inhaltsverzeichnis, das die selbstabgleichende Eigenschaft eines B-Baumes hat und das ermöglicht, daß Datenraum- und Indexbereiche ineinander verschachtelt werden. Die BANG-Datei paßt sich gut ungleichförmigen Datenverteilungen an, sie kann jedoch nicht garantierte Leistungseigenschaften in allen Fällen sicherstellen.
Die Schwierigkeit besteht darin, wie die Tupels, die durch die Punkte in einem kleinen n-dimensionalen Datenraum dargestellt sind, einem Satz von Datenblöcken (oder Seiten) in einer Datei zugeordnet werden sollen. Geometrisch ausgedrückt bedeutet dies, daß der Datenraum in einen Satz von Hyperrechtecken oder Blockbereichen unterteilt werden, von denen jedes einer Diskettenseite entspricht. Um die Speicherleistung der Datei zu maximieren, müssen die Anzahl dieser Bereiche und die Positionen ihrer Grenzen so ausgelegt werden, daß jede entsprechende Diskettenseite eine hohe Datenokkupanz hat.
In der BANG-Datei werden Datenseiten über ein mehrpegeliges Inhaltsverzeichnis von Blockbereichen zugegriffen, die in der gleichen Datei wie die Daten gespeichert sind. Wenn das Einführen eines Tupel in die Datei bewirkt, daß ein Diskettenblock überfließt, werden die Diskettenseite und der entsprechende Bereich in zwei aufgespalten, und das Inhaltsverzeichnis wird aktualisiert. Die Teilungsstrategie ist erforderlich, um eine "beste Balance" zu erzielen, d.h. die nächstmögliche Balance zwischen den Besetzungen der beiden resultierenden Bereiche. Die BANG-Datei unterteilt den Datenraum durch eine Folge von binären Teilungen, in denen die Dimension, die für die nächste Teilung ausgewählt wird, entsprechend einer vorbestimmten Reihenfolge des periodischen Durchlaufens aller Dimensionen gewählt wird. Während die gleiche Teilungsfolge über den gesamten Datenraum vorgenommen wird, wird der Teilungsbetrieb selektiv auf individuelle Blockbereiche angewendet. Die Teilungen können im Prinzip eine beliebige Form innerhalb der Restriktionen der folgenden Axiome haben:
Axiom 1: Keine Teilungsgrenze darf sich selbst schneiden,
Axiom 2: Es dürfen sich keine zwei Teilungsgrenzen schneiden.
Insbesondere kann eine Teilung eine andere Teilung einschließen, d.h., sie können "verschachtelt" sein.
Aufgabe der Erfindung ist es, eine Datenbankstruktur, insbesondere eine hierarchische Indexstruktur zur Verwendung in der Datenbankstruktur zu schaffen, die ermöglicht, daß n-dimensionale Informationen in den eindimensionalen Speicher eines Computers (d.h. eines Speichers, der aus einer linearen Folge von Seiten besteht) abgebildet werden, und die umgekehrt ein wirksames Wiederauffinden von Informationen aus dem Speicher ergeben, der sich auf einen speziellen Punkt im n-dimensionalen Datenraum bezieht.
Gemäß der Erfindung ist ein Computer-Datenspeicher-Managementsystem mit einem Speicher, der eine hierarchische Datenstruktur verwendet, die die rekursive Unterteilung eines Datenraumes in zusammenhängende oder disjunkte Teilräume darstellt, derart, daß die externe Begrenzung eines jeden Teilraumes die externe oder interne Begrenzung eines beliebigen anderen Teilraumes auf dem gleichen oder einem anderen Pegel der rekursiven Unterteilung nicht schneidet, jedoch die externe Begrenzung des anderen Teilraumes einschließen oder teilweise damit zusammenfallen kann, bei dem die Datenstruktur-Hierarchie eine Vielzahl von Knoten einschließlich eines Wurzelknotens, einer Vielzahl von Zweigknoten und einer Vielzahl von Blattknoten aufweist,
jeder Knoten in der Datenstruktur-Hierarchie einen Teilraum bei entsprechendem oder niedrigerem Pegel in der entsprechenden rekursiven Teilhierarchie darstellt,
der Wurzelknoten den gesamten Datenraum darstellt,
jeder Knoten mit tieferem Pegel einen Teilraum des durch einen entsprechenden Vorgängerknoten oder einen Teilraum des durch einen Nachkommen des entsprechenden Vorgängerknotens dargestellten Raumes darstellt, wobei jeder Knoten mit niedrigerem Pegel einen Nachfolgerknoten aufweist,
die Zweigknoten in der hierarchischen Datenstruktur Indexknoten und die Blattknoten Datenknoten sind,
jeder Datenknoten entweder einen Satz von Dateneingaben oder einen Satz von Hinweisadressen enthält, wobei die Bezugsdateneingaben anderswo gespeichert sind,
jede Dateneingabe einen Wert oder Satz von Werten enthält, die direkt oder indirekt die Koordinaten eines Punktes spezifiziert, der die Dateneingabe im Datenraum darstellt,
jeder Indexknoten einen Satz von Indexeingaben enthält,
jede Indexeingabe eindeutig einem der Nachfolger des Indexknotens entspricht, der die Indexeingabe enthält, wobei jeder Indexeingabe zugeordnet ist
(i) eine entsprechende Hinweisadresse, die sich auf die logische Adresse des Nachfolgerknotens entsprechend der Indexeingabe bezieht, und
(ii) ein Wert oder Satz von Werten, der direkt oder indirekt die externe Begrenzung des durch die Indexeingabe dargestellten Teilraumes festlegt,
dadurch gekennzeichnet, daß
eine Knotenpromotion bzw. Knotenbeförderung als ein Resultat von Knotenüberläufen aufgrund der Einführung von zusätzlichen Informationen in den Speicher auftreten kann, ein nicht geförderter Knoten ein Knoten ist, der auf dem gleichen Pegel in der Datenstruktur-Hierarchie wie der Pegel des Teilraumes steht, den er in der entsprechenden rekursiven Teilungshierarchie darstellt, und ein geförderter Knoten ein Knoten ist, der auf einem höheren Pegel in der Datenstruktur-Hierarchie als der Pegel des Teilraumes steht, den er in der entsprechenden rekursiven Teilungshierarchie darstellt,
der Teilraum, der durch einen Nachfolgerknoten dargestellt ist, welcher auf einen entsprechenden Knoten gefördert ist, der ein Teilraum der Summe aller Teilräume ist, der durch einen nicht geförderten Nachfolgerknoten des entsprechenden Knotens dargestellt ist,
und dadurch gekennzeichnet ist, daß
(i) bei der Einführung der zusätzlichen Informationen in den Speicher und eines resultierenden Überlaufes eines Indexknotens der Indexknoten in zwei resultierende Indexknoten durch Unterteilen des Raumes, den der Indexknoten darstellt, in zwei Teilräume aufgeteilt wird, wobei die Unterteilung entweder so beschaffen ist, daß die Anzahl von Indexeingaben in die beiden resultierenden Indexknoten so nahe einer Gleichheit wie möglich ist, oder entsprechend einem vorbestimmten Abgleichkriterium in der Verteilung der Indexeingaben zwischen den beiden resultierenden Indexknoten liegt, wobei die beiden resultierenden Indexknoten auf dem gleichen Pegel der Datenstruktur- Hierarchie wie der Indexknoten, von dem sie erzeugt wurden, angeordnet sind und jeder resultierende Indexknoten als Vorgänger den Vorgänger des Indexknotens hat, von welchem er erzeugt worden ist, und
(ii) wenn die externe Begrenzung eines der beiden Teilräume, die durch die resultierenden Indexknoten dargestellt sind, durch die externe Begrenzung des anderen der beiden Teilräume umschlossen ist, und, wenn keine
Indexeingabe in dem Indexknoten einen Teilraum darstellt, dessen externe Begrenzung mit der umschlossenen externen Begrenzung zusammenfällt, im Indexknoten jedoch eine nicht geförderte oder geförderte Indexeingabe vorhanden ist, die einen Teilraum darstellen, dessen externe Begrenzung direkt die umschlossene externe Begrenzung umschließt,
dann die nicht geförderte oder geförderte Indexeingabe an den Vorgänger des Indexknotens gefördert wird,
die externe Begrenzung eines ersten Teilraumes direkt die externe Begrenzung eines zweiten Teilraumes umschließt, wenn bei dem gleichen rekursiven Teilungspegel kein dritter Teilraum vorhanden ist, dessen externe Begrenzung durch die externe Begrenzung des ersten Teilraumes umschlossen ist und dessen externe Begrenzung die externe Begrenzung des zweiten Teilraumes umschließt,
daß jeder Indexknoteneingabe eine Anzeige des Pegels in der Hierarchie von rekursiven Teilungen des Datenraumes des durch die Eingabe dargestellten Teilraumes zugeordnet ist, und
daß die innere Begrenzung des Teilraumes, die durch eine Indexeingabe dargestellt ist, implizit durch das Vorhandensein einer oder mehrerer anderer Indexeingaben im Index definiert ist, die dem gleichen oder einem höheren rekursiven Teilungspegel zugehören und von denen jeder einen Teilraum darstellt, den die externe Begrenzung des Teilraumes, die durch die Indexeingabe dargestellt ist, direkt umschließt.
Nach einem anderen Aspekt der Erfindung wird ein computergestütztes Verfahren zum Verwenden bei der Indexierung eines Datenraumes, der eine Datenbank für mehrdimensionale Informationen umfaßt, wobei das Indexieren eine hierarchische Struktur hat und der Datenraum rekursiv in Teilräume unterteilt ist, bei denen die entsprechenden Indexeingabeknoten in einem Indexbaum angeordnet sind, vorgeschlagen, daß
bei der Einführung von zusätzlichen Informationen ein Indexeingabeknoten zum Überlaufen gebracht wird, der in zwei resultierende Indexknoten aufgeteilt wird, indem der Raum, den der Indexknoten darstellt, in zwei Teilräume geteilt wird und diese Unterteilung entweder so vorgenommen wird, daß die Anzahl von Indexeingängen in die beiden resultierenden Indexknoten so nahe wie möglich gleich ist, oder in Übereinstimmung mit einem vorbestimmten Abgleichkriterium in der Verteilung der Indexeingänge zwischen den beiden resultierenden Indexknoten liegt,
die beiden resultierenden Indexknoten auf dem gleichen Pegel des Indexbaumes wie der Indexknoten, aus dem sie hervorgegangen sind, angeordnet sind und jeder resultierende Indexknoten als Vorgänger den Vorgänger des Indexknotens hat, aus dem er hervorgegangen ist,
dann, wenn die externe Begrenzung eines der beiden Teilräume, der durch die resultierenden Indexknoten dargestellt wird, von der externen Begrenzung des anderen der beiden Teilräume umschlossen ist, und wenn keine Indexeingabe in den Indexknoten einen Teilraum darstellt, dessen externe Begrenzung mit der umschlossenen externen Begrenzung zusammenfällt, im Indexknoten jedoch eine nicht geförderte oder eine geförderte Indexeingabe vorhanden ist, die einen Teilraum darstellt, dessen externe Begrenzung direkt die umschlossene externe Begrenzung einschließt, dann die nicht geförderte oder geförderte Indexeingabe auf den Vorgänger des Indexknotens gefördert wird, wobei eine nicht geförderte Indexeingabe eine Indexeingabe ist, die auf dem gleichen Pegel in der Datenstruktur-Hierarchie steht wie der Pegel des Teilraumes, den er in der entsprechenden rekursiven Teilungs-Hierarchie darstellt, und eine geförderte Indexeingabe eine Indexeingabe ist, die auf einem höheren Pegel in der Datenstruktur- Hierarchie steht als der Pegel des Teilraumes, den er in der entsprechenden rekursiven Teilungs-Hierarchie darstellt, und die externe Begrenzung eines ersten Teilraumes direkt die externe Begrenzung eines zweiten Teilraumes umschließt, wenn auf dem gleichen rekursiven Teilungspegel kein dritter Teilraum vorhanden ist, dessen externe Begrenzung durch die externe Begrenzung des ersten Teilraumes umschlossen ist, und dessen externe Begrenzung die externe Begrenzung des zweiten Teilraumes umschließt, und daß jede neu gewonnene Indexeingabe mit dem Pegel des Teilraumes markiert wird, den sie in der rekursiven Teilungshierarchie darstellt, wodurch die Anzeige von Indexeingaben erleichtert wird, die auf höheren Pegeln im Indexbaum stehen als der Pegel in der rekursiven Teilungs-Hierarchie, dem sie entsprechen.
Gegenstand der Erfindung ist ferner ein Verfahren zum Durchsuchen eines Computerspeichers mit einer hierarchischen Datenstruktur, die die rekursive Unterteilung eines Datenraumes einer Vielzahl von Dimensionen in zusammenhängende oder disjunkte Teilräume darstellt, und die so ausgelegt ist, daß die externe Begrenzung eines beliebigen Teilraumes die externe oder interne Begrenzung eines beliebigen anderen Teilraumes auf dem gleichen oder einem anderen Pegel rekursiver Unterteilung nicht schneidet, jedoch die externe Begrenzung eines solchen anderen Teilraumes umschließen oder teilweise damit zusammenfallen kann, wobei die Datenstruktur-Hierarchie eine Mehrzahl von Knoten einschließlich eines Wurzelknotens, einer Mehrzahl von Zweigknoten und einer Mehrzahl von Blattknoten in einer Baumstruktur aufweist,
jeder Knoten in der Datenstruktur-Hierarchie einen Teilraum mit einem entsprechenden oder niedrigeren Pegel in der jeweiligen rekursiven Teilungs-Hierarchie darstellt,
der Wurzelknoten den gesamten Datenraum darstellt,
jeder Knoten mit niedrigerem Pegel einen Teilraum des Raumes, der durch einen entsprechenden Vorgängerknoten dargestellt ist, oder einen Teilraum des Raumes, der durch einen Nachkommen des jeweiligen Vorgängerknotens dargestellt wird, darstellt,
und jeder Knoten mit niedrigerem Pegel einen Nachfolgerknoten umfaßt, wobei ein nicht geförderter Knoten ein Knoten ist, der auf dem gleichen Pegel in der Datenstruktur-Hierarchie wie der Pegel des Teilraumes steht, den er in der entsprechenden rekursiven Teilungs-Hierarchie darstellt, und ein geförderter Knoten ein Knoten ist, der auf einem höheren Pegel in der Datenstruktur-Hierarchie steht als der Pegel des Teilraumes, den er in der rekursiven Teilungs-Hierarchie darstellt, wobei eine Beförderung (Promotion) als Ergebnis von Knotenüberläufen aufgrund der Einführung von zusätzlichen Informationen in den Speicher auftritt,
der durch einen Nachfolgerknoen dargestellte Teilraum, der auf einen entsprechenden Knoten gefördert wird, ein Teilraum der Summe aller Teilräume ist, die durch nicht geförderte Nachfolger des entsprechenden Knotens dargestellt sind,
die Zweigknoten in der hierarchischen Datenstruktur Indexknoten und die Blattknoten Datenknoten sind,
jeder Datenknoten entweder einen Satz von Dateneingaben oder einen Satz von Hinweisadressen enthält, die anderswo gespeicherte Dateneingaben betreffen; jede Dateneingabe einen Wert oder Satz von Werten enthält, der direkt oder indirekt die Koordinaten eines Punktes spezifiziert, die die Dateneingabe in den Datenraum darstellen,
jeder Indexknoten einen Satz von Indexeingaben enthält,
wobei
(i) bei Einführung der zusätzlichen Information in den Speicher und resultierendem Überlauf eines Indexeingabeknotens dieser Indexeingabeknoten in zwei resultierende Indexknoten dadurch geteilt wird, daß der Raum, der den Indexknoten darstellt, in zwei Teilräume unterteilt wird, wobei diese Unterteilung entweder so vorgenommen ist, daß die Anzahl von Indexeingaben in den beiden resultierenden Indexknoten so nahe wie möglich gleich ist, oder in Übereinstimmung mit einem vorbestimmten Abgleichkriterium in der Verteilung der Indexeingaben zwischen den beiden resultierenden Indexknoten ist, wobei die beiden resultierenden Indexknoten auf dem gleichen Pegel der Datenstruktur-Hierarchie wie der Indexknoten, aus dem sie gewonnen wurden, stehen, und jeder resultierende Indexknoten als Vorgänger den Vorgänger des Indexknotens hat, aus dem er hervorgegangen ist, und
(ii) wenn die externe Begrenzung eines der beiden Teilräume, der durch die resultierenden Indexknoten dargestellt ist, durch die externe Begrenzung des anderen der beiden Teilräume umschlossen ist, und wenn keine Indexeingabe im Indexknoten einen Teilraum darstellt, dessen externe Begrenzung mit der umschlossenen externen Begrenzung zusammenfällt, jedoch im Indexknoten eine nicht geförderte oder geförderte Indexengabe vorhanden ist, die einen Teilraum darstellt, dessen externe Begrenzung direkt die umschlossene externe Begrenzung einschließt,
die nicht geförderte oder geförderte Indexeingabe dann an den Vorgänger des Indexknotens gefördert wird,
jede Indexeingabe eindeutig dem einen der Nachfolger des Indexknotens entspricht, der die Indexeingabe enthält, wobei jeder Indexeingabe zugeordnet ist:
(i) eine entsprechende Hinweisadresse, die sich auf die logische Adresse des Nachfolgerknotens entsprechend der Indexeingabe bezieht,
(ii) eine Anzeige des Pegels des durch die Eingabe dargestellen Teilraumes in der Hierarchie von rekursiven Unterteilungen des Datenraumes, und
(iii) ein Wert oder ein Satz von Werten, der direkt oder indirekt die externe Begrenzung des durch die Indexeingabe dargestellten Teilraumes definiert,
und die interne Begrenzung des Teilraumes, der durch eine Indexeingabe dargestellt wird, implizit durch das Vorhandensein im Index einer oder mehrerer anderer Indexeingaben definiert ist, die den gleichen oder höheren rekursiven Unterteilungspegeln zugehören und von denen jeder einen Teilraum darstellt, den die externe Umgrenzung des durch die Indexeingabe dargestellten Teilraumes direkt umschließt,
die externe Begrenzung eines ersten Teilraumes direkt die externe Begrenzung eines zweiten Teilraumes umschließt, wenn bei dem gleichen rekursiven Teilungspegel kein dritter Teilraum vorhanden ist, dessen externe Begrenzung durch die externe Begrenzung des ersten Teilraumes umschlossen ist, und dessen externe Begrenzung die externe Begrenzung des zweiten Teilraumes umschließt,
das dadurch gekennzeichnet ist, daß
schrittweise die rekursive Teilungs-Hierarchie nach dem kleinsten Teilraum durchsucht wird, die einen Punkt im Datenraum einschließt, der den gesuchten Informationsausdruck darstellt,
die Suche durch schrittweises Rekonstituieren der relevanten Knoten in der rekursiven Teilungs-Hierarchie aus der entsprechenden Index-Hierarchie während des Suchvorganges erreicht wird,
an dem Wurzelknoten des Indexbaumes begonnen wird, wobei die nicht geförderten Indexeingänge im Indexknoten nach einer nicht geförderten Indexeingabe durchsucht werden, die einen Teilraum darstellt, der direkt den den gesuchten Informationsausdruck darstellenden Punkt umschließt,
für den Fall, daß keine solche, nicht geförderte Indexeingabe im Indexknoten festgestellt wird, die Suche als ergebnislos abgebrochen wird,
für den Fall, daß eine solche nicht geförderte Indexeingabe festgestellt wird, die geförderten Indexeingaben im Indexknoten nach den geförderten Indexeingaben durchsucht werden, die entsprechend einen Teilraum darstellen, der direkt den Punkt umschließt, der den gesuchten Informationsausdruck darstellt,
eine Kopie einer jeden solchen geförderten Indexeingabe, die direkt den den gesuchten Informationsausdruck darstellenden Punkt umschließt, weitergegeben und um einen Pegel zurückgesetzt wird, sowie zum Zweck der Suche nur mit dem Satz von Indexeingaben im nächsten indexierten, zu untersuchenden Knoten umgeschlossen wird,
der nächste zu untersuchende Indexknoten der Indexknoten ist, auf den die Hinweisadresse bezogen ist, die der nicht geförderten Indexeingabe zugeordnet ist, welche einen Teilraum darstellt, der direkt den Punkt umschließt, welcher den gesuchten Informationsausdruck darstellt,
die Anzahl unterschiedlicher Indexknoten, die während des Suchverlaufes für den gesuchten Informationsausdruck betrachtet werden, über eine konstante Gesamtzahl von im Datenraum enthaltenen Informationsausdrücken konstant gehalten wird.

Kurzbeschreibung der Zeichnungen

Ausführungsformen der Erfindung werden nachstehend in Verbindung mit den Zeichnungen erläutert.
Figuren 1 bis 3 zeigen einen sehr einfachen zweipegeligen Index,
Fig. 4 zeigt den entsprechenden BV-Baum,
Fig. 5 zeigt die Organisation und den Inhalt der entsprechenden Speicherseiten;
Figuren 6 - 15 zeigen verschiedene Definitionen und Axiome;
Figuren 16a - 16e zeigen eine Folge von Aufteilungen eines Datenraumes (links) und der entsprechenden BV - Indexstruktur (rechts);
Fig. 16f zeigt die Aufteilung eines geförderten Bereiches,
Figuren 17 und 18 zeigen zwei Beispiele für eine Suche mit exakter Anpassung und
Fig. 19 zeigt schematisch ein Computersystem.

Betriebsweisen zur Durchführung der Erfindung

Die schwierige Handhabung des zugrundeliegenden Problems, nämlich die Generalisierung der B-Bäume in n Dimensionen, ist eindeutig auf die erhöhte topologische Komplexität des n-dimensionalen Falls bezogen und wird nachstehend im einzelnen erläutert.
Zuerst wird jedoch auf die Figuren 1 - 3 bezug genommen, die ein Beispiel für einen sehr einfachen zweipegeligen Index nach der Erfindung darstellen, jedoch auch das Problem in Hinblick auf die Art und Weise zeigen, in der Fig. 2 gezeichnet ist. Ein n- dimensionaler Datenraum ist ein n-dimensionaler Raum, in welchem die Domäne von Werten einer jeden Koordinate der Domäne eines Datenattributs entspricht. Zum Beispiel kann dies im Falle einer Angestellten-Aufzeichnung: Angestellter (Identifiziernummer, Alter) als ein Punkt in einem zweidimensionalen Raum mit Koordinaten, die die Identifiziernummer und das Alter wiedergeben, dargestellt werden. Der Gedanke eines hierarchischen Index ist, den Suchraum innerhalb des gesamten Datenraumes schrittweise zu einzugrenzen. Jeder Pegel des Index unterteilt den Datenraum (oder Teilraum des Datenraumes) in kleinere Unterteilungen. Während die Teilräume eine beliebige Form haben können, sollen sie in der Praxis einfache Formen, z.B. Rechtecke haben, damit man in der Lage ist, eine einfache und kompakte Darstellung für sie zu finden.
In den Figuren 1 - 3 werden die Teilräume eines zweidimensionalen Datenraumes durch strikte binäre Unterteilung erzeugt, d.h. durch wiederholtes Teilen des Raumes in genau gleiche Hälften in abwechselnden Dimensionen. Wenn die linke oder untere Hälfte einer Teilung durch eine Null dargestellt ist und die rechte oder obere Hälfte durch eine Eins, kann jeder Teilraum durch die Folge von Nullen und Einsen entsprechend der Teilungsfolge, die sie erzeugt hat, identifiziert werden. Ein Teilraum f beispielsweise hat die eindeutige Darstellung 10110.
Zur Klarstellung sei angenommen, daß die Koordinaten von nur drei Punkten in jeder Speicherseite gespeichert werden können. Für die in Fig. 3 gezeigte Datenverteilung muß der Datenraum in der in Fig. 2 gezeigten Weise in fünf Teilräume unterteilt werden, da jeder Teilraum einer Speicherseite entspricht. Wird ferner angenommen, daß eine Indexseite nicht mehr als die Darstellung von vier Teilräumen in diesem Fall speichern kann, wird ein zweipegeliger Index erforderlich. Die Datenraum-Unterteilung, die der Indexseite mit dem oberen Pegel (Wurzelknoten der Hierarchie) entspricht, ist in Fig. 1 gezeigt. Diese Seite unterteilt den Datenraum in zwei Sätze von zwei Unterteilungen bei dem unteren Indexpegel. Fig. 2 zeigt alle Unterteilungen zusammen bei dem unteren Pegel. Fig. 2 sollte eigentlich in Form von zwei getrennten Diagrammen dargestellt werden, die zwei getrennte Knoten des Index darstellen, wobei einer a und e, und der andere f und g enthält. Dies kennzeichnet das Problem. In welchen der beiden soll d gehen? g ist teilweise in beiden vorhanden. In der BANG-Datei mußte die Unterteilung d in zwei Teile längs der Begrenzung der Teilung y aufgespalten werden. Alle anderen vorher vorgeschlagenen Konstruktionen haben etwas ähnliches getan.
Die Schwierigkeit beim Aufspalten der Unterteilung d in zwei Teile besteht darin, daß das gesamte Prinzip der "abgeglichenen" Unterteilung verlorengeht. Wie oben erwähnt, muß, wenn eine eine Unterteilung darstellende Seite überläuft, die Unterteilung in zwei geteilt werden, so daß beide sich daraus ergebenden Unterteilungen so weit wie möglich die gleichen Einträge enthalten. Im umgünstigsten Fall kann stets ein Verhältnis von 1 : 2 erhalten werden, wie weiter unten beschrieben wird. Wenn dieses Prinzip nicht unter allen Umständen garantiert werden kann, ist es möglich, Anordnungen auszubilden, bei denen die meisten Unterteilungen nicht mehr als einen einzigen Eintrag enthalten. Die Anzahl von Seiten im Index explodiert dann und ist nicht länger proportional der Anzahl von Einträgen im Index. Somit ist das Prinzip entscheidend für voll vorhersagbare Leistung.
In dem Beispiel nach Fig. 3 ist, wenn d zu einer Aufspaltung längs der Grenze von y gezwungen wird, keine Garantie gegeben, daß jede der resultierenden aufgespaltenen Unterteilungen mindestens ein Drittel der Einträge enthält, was eine Forderung nach einer praktischen, mehrdimensionalen Anordnung darstellt.
Die Baumstruktur, die hier vorgeschlagen wird und die als BV-Baum (Abkürzung des Ausdrucks "Begriffsverzeichnis" bzw. Begriffsindex) bezeichnet wird, löst das Problem einfach dadurch, daß eine Unterteilung d um einen Pegel in der Verzeichnishierarchie nach oben geschoben wird, d.h. zu dem Zweigknoten, unterhalb dessen d sonst gespalten werden müßte.
Fig. 4 zeigt die konzeptionelle Struktur des entsprechenden BV-Baumes. Jedes der beschrifteten Kästchen entspricht einer Speicherseite, und ein Indexzweig entspricht der Adresse der Seite, auf die der Zweig hinweist.
Es sei jedoch auf ein besonderes Merkmal des BV-Baumes hingewiesen: Der Teilraum d - der direkt einen Teilraum des Datenraumes bei dem unteren Unterteilungspegel darstellt - ist trotzdem auf den höheren Pegel im Verzeichnis befördert worden. Die Gründe hierfür werden weiter unten erläutert.
Fig. 5 zeigt die eigentliche Organisation und den Inhalt der entsprechenden Speicherseiten.
Um exakt festzulegen, was mit Unterteilung eines Datenraumes in Teilräume oder Bereiche gemeint ist, ist es notwendig, eine Reihe von Definitionen einzuführen. Hierzu wird zunächst auf die Figuren 6a und 6b verwiesen.

Definition 1.

Ein Punkt X liegt außerhalb einer geschlossenen Begrenzung B in einem Datenraum B, wenn jede gerade Linie unbegrenzte Länge hat, die durch X geht, und B entweder Null-mal oder eine ganze Zahl mal auf jeder Seite von X schneidet.

Definition 2.

Ein Punkt X liegt innerhalb einer geschlossenen Begrenzung B in einem Datenraum D, wenn jede gerade Linie unbegrenzte Länge hat, die durch X geht, und B eine ungerade Zahl mal auf jeder Seite von X schneidet.
Als nächstes wird Bezug auf die Figuren 7a und 7b genommen.

Definition 3.

Zwei Punkte X und Y liegen auf entgegengesetzten Seiten einer geschlossenen Begrenzung B, wenn eine gerade Linie, die X und Y miteinander verbindet, B eine ungerade Anzahl von Malen schneidet.

Definition 4.

Zwei Punkte X und Y liegen auf der gleichen Seite einer geschlossenen Begrenzung F, wenn eine gerade Linie, die X und Y miteinander verbindet, B entweder Null oder eine gerade Anzahl von Malen schneidet.
Die Axiome, auf die nachstehend bezug genommen wird, sind in den Figuren 8a und 8b dargestellt.
Axiom 1. Keine Begrenzung darf sich selbst schneiden.
Axiom 2. Keine zwei Begrenzungen dürfen sich schneiden.

Definition 5.

Eine geschlossene Begrenzung B umschließt einen Teilraum DS eines Datenraumes D, wenn jeder Punkt X in DS innerhalb der Begrenzung B liegt.

Definition 6.

Eine geschlossene Begrenzung B umschließt ausschließlich einen Teilraum DS eines Datenraumes D, wenn B einen Teilraum DS umschließt und B keinen Punkt, der nicht im Teilraum DS liegt, umschließt.

Definition 7.

Ein Unterteilungsbereich P eines Datenraumes D ist ein Teilraum DS, der ausschließlich durch eine endliche oder unendliche geschlossene Begrenzung B(P) umschlossen wird.
Der Datenraum D ist selbst ein Unterteilungsbereich, dessen geschlossene Begrenzung B(D) durch die endlichen oder unendlichen oberen und unteren Begrenzungen seiner Datendomänen oder Reichweiten festgelegt wird.

Definition 8.

Ein Unterteilungsbereich Pa umschließt einen Unterteilungsbereich Pb, wenn jeder Punkt in Pb auch innerhalb von Pa liegt. Somit gilt: Pa Pb = Pb und Pa Pb = Pa. (siehe Fig. 9).

Definition 9.

Ein Unterteilungsbereich Pa umschließt direkt einen Unterteilungsbereich Pb, wenn der Bereich Pa den Bereich Pb umschließt und kein anderer Unterteilungsbereich Pc vorhanden ist, der Pb umschließt und der von Pa umschlossen wird (s. Fig. 10).

Definition 10.

Ein Unterteilungsbereich Pa umschließt genau einen Unterteilungsbereich Pb, wenn der Bereich Pc den Bereich Pb umschließt und keine Stelle vorhanden ist, die den Begrenzungen sowohl des Bereiches Pa als des Bereiches Pb gemeinsam ist (siehe Fig. 11a).

Definition 11.

Ein Unterteilungsbereich Pa umschließt tangential einen Unterteilungsbereich Pb, wenn der Bereich Pa den Bereich Pb umschließt, Pa jedoch nicht genau Pb umschließt, d.h. mindestens ein Punkt vorhanden ist, der B(Pa) und B(Pb) gemeinsam ist (siehe Fig. 11b).
Aus Axiom 2 ergibt sich, daß keine zwei Unterteilungsbereiche Pa und Pb sich schneiden können, wenn nicht einer den anderen umschließt:
Pa Pb {∅, Pa, Pb}.

Definition 12.

Ein logischer Bereich La ist die Differenz zwischen einem Unterteilungsbereich Pa und dem Satz von Unterteilungsbereichen S = {Pb1, Pb2, ..., Pbn}, den er direkt umschließt:
Aus dieser Definition folgt, daß ein logischer Bereich aus einem oder mehreren nicht miteinander verbundenen Teilbereichen zusammengesetzt ist, von denen jeder eine oder mehrere innere Begrenzungen wie auch eine externe Begrenzung aufweist (siehe Figuren 12, 13a und 13b).

Definition 13.

Die externe Begrenzung Be (La) eines logischen Bereiches La ist der Satz SB von Begrenzungen, die ausschließlich die m nicht miteinander verbundenen Teilbereiche Lau, u = 1 ..., m umschließen, der La enthält, d.h.:

Definition 14.

Die interne Begrenzung eines logischen Bereiches La ist der Satz von Begrenzungen der Einheit der Unterteilungsbereiche, die Pa direkt und exakt umschließt.
Nach diesen Definitionen überspannt ein logischer Bereich immer den Raum, den er umschließt, d.h. keine Stelle, die durch einen logischen Bereich umschlossen ist, kann gleichzeitig von einem anderen logischen Bereich umschlossen sein. Im Gegensatz hierzu überspannt ein Unterteilungsbereich im allgemeinen nicht den Raum, den er umschließt. Es ist ferner festzuhalten, daß bei gegebenen zwei Unterteilungsbereichen Pa und Pb, derart, daß daraus, daß der Bereich Pa den Bereich Pb umschließt, nicht notwendigerweise folgt, daß ein logischer Bereich La Pa-Pb den Bereich Lb Pb umschließt.
Nunmehr wird die Unterteilung der Unterteilungsbereiche betrachtet. In Verbindung mit den Figuren 14a und 14b wird davon ausgegangen, daß ein Datenraum D in einen Satz von n Unterteilungsbereichen Sp = {P&sub1;, P&sub2;, ..., Pn} (Fig. 14a) entsprechend den obigen Definitionen und Axiomen unterteilt ist.
Es wird ferner unterstellt, daß der Satz Sp selbst in zwei Sätze Spa und Spb unterteilt werden soll, derart, daß Spa und Spb innerhalb der Unterteilungsbereiche Pa und Pb umschlossen sind, d.h.
Wenn alle Unterteilungsbereiche nicht miteinander verbunden sind, ist es stets notwendig, den Satz vön Unterteilungsbereichen in zwei Hälften zu teilen, d .h. Sp so zu unterteilen, daß die Grundzahlen von Spa und Spb sich nicht um mehr als 1 unterscheiden (Fig. 14b). Wenn jedoch einige Unterteilungsbereiche andere umschließen, ist die Sachlage nicht so klar. Intuitiv kann man feststellen, daß, je mehr nicht miteinander in Verbindung stehende Unterteilungsbereiche vorhanden sind, die Chance, eine Aufteilung von 1:1 zu erzielen, umso besser ist. Der ungünstigste Fall tritt dann auf, wenn keine nicht miteinander in Verbindung stehenden Unterteilungsbereiche vorhanden sind, d.h. jeder Unterteilungsbereich entweder einen anderen umschließt oder von einem anderen umschlossen wird (Fig. 15a). Da nach Axiom 1 Breichsbegrenzungen einander nicht schneiden dürfen, muß der Satz Sb in Sätze unterteilt werden, von denen einer den anderen umschließt (Fig. 15B), d.h.:
In diesem Fall läuft der Algorithmus zum Auffinden der am besten abgeglichenen Unterteilung wie folgt ab: Es sei angenommen, daß La, Lb Bruchteile f(La) und f(Lb) jeweils der Gesamtanzahl von Unterteilungsbereichen im Datenraum enthalten, d.h. daß gilt f(La) + f(Lb) = 1. Zu Beginn jedoch umschließt La nur den äußersten Teil von Sp, während der übrige Teil von Lb umschlossen wird. Wenn mehr als ein Bestandteil dieses übrigen Teiles durch Lb umschlossen wird (d.h. Pb direkt eine Anzahl von nicht in Verbindung stehenden Unterteilungsbereichen umschließt), und wenn einer dieser umschlossenen Teile Pi selbst mehr als die Hälfte des gesamten Teils von Sp umschließt, wird der Satz Sp neu so positioniert, daß Pb direkt von Pi umschlossen wird.
Wenn keiner der Unterteilungsbereiche, der direkt von Pb umschlossen wird, mehr als die Hälfte der gesamten Anteils von Sp umschließt, kann es möglich sein, einen besseren Abgleich zwischen La und Lb durch eine weitere Neupositionierung von Pb zu erzielen, die bewirkt, daß ein oder mehrere Teile des Satzes von Lb auf La übertragen werden. Die Komplexität eines solchen Abgleich-Algorithmus ist jedoch exponential in der Größe des Satzes. Das Unterteilungsverhältnis braucht jedoch nie aus dem Rahmen eines den ungünstigsten Fall bildenden Verhältnisses von 2 : 1 zu fallen. Der nachstehende Beweis ergibt auch den Rahmen eines Algorithmus, um dieses Verhältnis aufrecht zu erhalten.
Gilt f(La) < 1/3, ist f(Lb) > 2/3. Es wird unterstellt, daß Pb begrifflich durch zwei willkürliche Unterteilungsbereiche Pb' und Pb" ersetzt wird. Dann treten zwei getrennte Fälle auf:
(a) f(Lb') ≤ 2/3 und f(Lb") ≤ 2/3
(b) f(Lb') > 2/3 oder f(Lb") > 2/3
In beiden Fällen wird Pb neu positioniert, so daß er mit dem Wert der beiden (begrifflichen) Unterteilungsbereiche Pb' und Pb" zusammenfällt, der den größeren Teil umschließt. Da f(Lb') + f(Lb") > 2/3, muß dieser größere Anteil größer sein als 1/3. Deshalb gilt im Fall (a) 1/3 < f(Lb) < 2/3. Im Falle (b) gilt weiter, daß f(Lb) > 2/3. Pb muß jedoch direkt mehr als einen Teil von S umschließen, weil kein Teil, der Pb direkt umschließt, selbst einen Bruchteil größer als ½ aufweisen kann. Es ist deshalb möglich, den (begrifflichen) Unterteilungsvorgang an Pb zu wiederholen, bis der Fall (a) eintritt - was schließlich eintreten muß, wenn nur ein Teil direkt von Pb umschlossen bleibt.
Dies ist keinesfalls ein neues Resultat. Vielmehr ist dies eine Folge der Topologie und ist völlig unabhängig von einem besonderen Datenmodell. Der Beweis ist nicht eindeutig klar, daß das Resultat bereits intuitiv offensichtlich ist. Diese Intuition verläßt sich auf topologische Beobachtungen: Ein überlagertes Datenmodell dient üblicherweise nur zur Verschleierung.
Nunmehr wird die logische Unterteilung bon Bereichen betrachtet. Wenn eine Unterteilungsregion Pa ein Unterteilungsbereich Pb umschließt, und eine weitere Unterteilungsgrenze zwischen denen der anderen beiden eingeführt wird, hat dies keinen Einfluß auf das Ausmaß der Datenräume, die von Pa und Pb umschlossen sind, weil Unterteilungsbereiche vollständig durch ihre (externen) Grenzen definiert sind.
Im Gegensatz hierzu wird der logische Bereich La geändert, da er eine innere Begrenzung hat, die durch Unterteilungsbegrenzungen definiert ist, die er direkt umschließt (Lb bleibt deshalb unverändert). In der Regel wird, wenn ein neuer Unterteilungsbereich Pb direkt innerhalb Pa eingeführt wird, La in zwei logische Bereiche La' und Lb, wobei gilt La = La' Lb. Letztlich macht die Aufgabenstellung - die Konstruktion eines Index - die Unterteilung eines Datenraumes in einen Satz von sich nicht schneidenden Teilräumen erforderlich, von denen jeder so weit wie möglich eine gleiche Anzahl von Datenpunkten besitzt. Es ist deshalb klar, daß mit den oben gegebenen Definitionen diese Teilräume logische Bereiche sein müssen, da logische Bereiche sich nicht schneiden. Es sei jedoch bemerkt, daß logische Bereiche als Unterteilungsbereiche definiert sind. Es ist deshalb möglich, die Teilbereiche eines Datenraumes entweder direkt als logische Bereiche oder indirekt als Satz von Unterteilungsbereichen darzustellen: Ein Datenpunkt, der in einem bestimmten logischen Bereich liegt, liegt auch zweifelsfrei im Unterteilungsbereich, der den Punkt direkt umschließt. Somit hält in letzterem Fall eine Suche nach einem Targetdatenpunkt einfach Ausschau nach dem kleinsten Unterteilungsbereich, der den Punkt umschließt.
Das Problem der Darstellung und Indexierung eines Satzes von Objekten mit räumlicher Erstreckung ist nicht betrachtet worden. Es kann jedoch ein fundamentales Problem, das dies aufzeigt, nicht vermieden werden, wenn eine Hierarchie von Teilräumen betrachtet wird, da die Teilräume selbst eine räumliche Erstreckung haben.
Nunmehr wird die Konstruktion eines hierarchischen Index für die logischen Bereiche des Datenraumes betrachtet. Jeder Zweig- und Blattknoten in dem baumstrukturierten Index repräsentiert einen logischen Bereich und enthält eine Repräsentation des Satzes von logischen Bereichen, die er umschließt. Jedem Bereich ist ein Hinweis auf einen Indexknoten bei dem nächsttieferen Pegel in der Baumstruktur zugeordnet. Die Zweigknoten enthalten Sätze von Bereichen. Der einem logischen Bereich in einem Blattknoten zugeordnete Hinweis zeigt auf einen Datenknoten, der einen Satz von Datenpunkten enthält, die innerhalb dieses logischen Bereiches des Datenraums liegen. (Wenn die Darstellung eines Unterteilungsbereiches gewählt wird, ist jeder Hinweis im Baum einem Unterteilungsbereich anstatt einem logischen Bereich zugeordnet, die Indexknoten stellen jedoch immer noch logische Bereiche dar). Bei der Darstellung des Index sind keine anderen Beschränkungen gegeben, mit der Ausnahme, daß die Zahl von Einträgen in jeden Baumknoten und Datenknoten (das Auffächerungsverhältnis) einen festen oberen Grenzwert F hat.
Wie bei einem B-Baum verläuft die Suche nach einem Datenpunkt in dem Datenraum von der Wurzel des Baums nach abwärts, es wird bei jedem Indexpegel für den logischen Bereich, der den Punkt umschließt, und dem zugeordneten Hinweis nach unten zum nächsten Pegel folgend gesucht.
Ebenfalls wie bei einem B-Baum nimmt der Index nach oben zu, wenn die Datenknoten am Boden der Indexhierarchie überlaufen und geteilt werden. Vorausgesetzt, daß alle Datenpunkte eindeutig sind, kann immer eine Unterteilung gefunden werden, die einen überlaufenden Datenknoten in zwei halb volle Knoten unterteilt. Wenn ein Indexknoten überläuft, ist es immer möglich, die logischen Bereiche, die er enthält, in einem Verhältnis nicht kleiner als 1 : 2 zu unterteilen, wie oben nachgewiesen wurde. Diese letztere Eigenschaft ist der allgemeine n-dimensionale Fall, der mit dem 1 : 1 Teilungsverhältnis kontrastiert, das durch den B-Baum im speziellen, eindimensionalen Fall erreicht wird.
Ein Grundproblem, das mit der Aufteilung der Indexknoten gekoppelt ist, ist jedoch bisher vernachlässigt worden. Obgleich der rekursive Unterteilungsvorgang, der vorstehend beschrieben wurde, keinen der Lehrsätze (Axiome) oder Definitionen, die früher erläutert worden sind, verletzt, wird trotzdem eine Zweideutigkeit (das Verspannungsproblem) eingeführt, wenn ein logischer oder Unterteilungsbereich als ein kontinuierlicher Teilraum interpretiert wird.
Es sei angenommen, daß der logische Bereich L in zwei Bereiche La und Lb unterteilt werden soll, so daß gilt Pa Pb = Pa. Wenn L einem Datenknoten entspricht, können die Datenpunkte, die innerhalb von Lb liegen, auf einen neuen Knoten, der Lb repräsentiert, übertragen werden. Wenn L jedoch ein logischer Bereich bei einem höheren Indexpegel ist, enthält er einen Satz von logischen Bereichen SL des nächst niedrigeren Pegels. In diesem Fall kann die Grenze von Pb nicht willkürlich lokalisiert werden, da sie leicht eine Grenze eines oder mehrerer der Teile von SL kreuzen kann, wodurch die Beschränkung, daß keine zwei Grenzen einander schneiden dürfen, verletzt würde. Trotzdem ist bekannt, daß es immer möglich ist, eine Position für die Grenze von Pb zu finden, bei der die Größen von SLa und SLb sich nicht durch ein Verhältnis größer als 2 : 1 unterscheiden.
Es gibt jedoch keine Garantie dafür, daß die Begrenzung von Pb nicht von einem der Teile Pai' von SPa umschlossen ist (beispielsweise können die Grenzen aller Teile von Sp ineinandergeschachtelt sein). Pai muß dann selbst längs der Grenze von Pb unterteilt werden. Wenn Pai selbst einem Indexknoten entspricht, kann die gleiche Situation bei dem nächst niedrigeren Indexpegel wiederholt werden, usw., bis ein Datenknoten erreicht wird - der stets geteilt werden kann, ohne daß eine weitere Kettenreaktion der Unterteilung in Aktion gesetzt wird.
Die Unterteilungsgrenze der anfangs aufgerufenen Teilung von L ist die Begrenzung, die für alle anschließenden Unterteilungen bei den niedrigeren Indexpegeln verwendet wird, d.h. nur die Position der Anfangsunterteilung kann frei gewählt werden, um das Teilungsverhältnis von 2:1 aufrecht zu erhalten. Es läßt sich zeigen, daß die grundlegenden Axiome nicht verletzt werden, d.h., daß die Unterteilungsgrenze niemals Grenzen von Bereichen bei den niedrigeren Indexpegeln schneiden werden. Es können jedoch ernsthafte Unterteilungs-Ungleichheiten bei den unteren Pegeln auftreten. Ungünstiger ist, daß eine Knotensplittung bei dem unteren Pegel ein Überlaufen in einen Indexknoten darüber auslösen kann, was wiederum eine weitere Kaskade von Abwärts- Splittungen auslösen kann.
Dies ist eine Bedingung, die auf alle multidimensionalen Indexmethoden zutrifft, die auf abgeglichenen Baumstrukturen basieren. Der größte Teil der Komplexität und Findigkeit in den Konstruktionen zielt auf das Umgehen oder Minimieren dieses Problems ab.
Wenn ein logischer Bereich L unterteilt wird, wird der Indexknoten, der die Darstellung von L enthält, modifiziert: Die Darstellung von L wird durch die Darstellung von La und Lb vertauscht. Es besteht von Anfang an keine Inkonsistenz innerhalb des Bereiches Lai oder innerhalb eines der Bereiche, die dieser bei niedrigeren Indexwerten umschließt. Es ist lediglich eine Aufspaltung erforderlich, um das korrekte Verhalten des Suchpfades durch den neuen Indexzweig sicherzustellen, der durch Lb geschaffen wird. Es gibt jedoch eine alternative Strategie, nämlich Lai intakt zu belassen und den Suchpfad zu modifizieren.
Es sei angenommen, daß La und Lb die Sätze von logischen Bereichen Sa und Sb enthalten. Wenn Lai in La' und Lai" längs der Begrenzung von Pb gespalten wird, gilt:
Dies zeigt, daß Lai nicht gespalten wird, sondern intakt gehalten werden kann, wenn der Suchpfad geändert werden kann, so daß Lai stets gesucht wird, wenn die Suche in La oder Lb kein Ergebnis gebracht hat. Was erforderlich ist, bevor ein Indexknoten entsprechend dem Unterteilungs-Algorithmus aufgespalten wird, ist lediglich, daß der Knoten auf einen Eingang hin durchsucht wird, der eine Unterteilungsbegrenzung Pai repräsentiert, die direkt die Aufteilungs-Begrenzung Pb umschließt. Wenn Pai vorhanden ist, wird sie nicht gespalten, sondern zusammen mit den Einträgen für Pa und Pb auf den obigen Indexpegel befördert. Der Teilbaum von Pai wird damit automatisch befördert. Eine Markierung wird mit dem beförderten Eintrag verbunden, um ihn von einem Eintrag zu unterscheiden, der durch direkte Unterteilung geschaffen worden ist.
Die Folgen dieser Beförderungspolitik für die Konstruktion eines und den Zugriff zu einem BV-Baum werden in dem folgenden Beispiel entwickelt und demonstriert.
Die Figuren 16a - 16e zeigen eine Folge von Unterteilungen eines Datenraumes (links) und der entsprechenden BV-Indexstrukturen (rechts). Es werden keine Annahmen über die Form des Datenraumes oder irgendwelcher Teilräume gemacht, in die der Datenraum unterteilt wird, mit der Ausnahme, daß Unterteilungsgrenzen nicht geschnitten werden dürfen. Der Datenraum kann endlich oder unendlich sein.
Zu Beginn ist ein einziger Unterteilungsbereich vorhanden, der der gesamte Datenraum ist. Konzeptionell werden eine Anzahl von Punkten in diesen Bereich eingesetzt (Fig. 16a). In der Praxis entsprechen diese Punkten Datenaufzeichnungen. Es werden keine Annahmen darüber gemacht, wie die Punkte repräsentiert werden, nur, daß eine maximale Anzahl P in einen beliebigen Unterteilungsbereich eingesetzt werden kann.
Auf der rechten Seite der Fig. 16a ist ein Datenknoten dargestellt, der den die Punkte enthaltenden Unterteilungsbereich repräsentiert. In der Praxis entspricht dies einer oder mehreren Seiten eines Computerspeichers, in welchem die Aufzeichnungen gespeichert sind.
Wenn die Anzahl von Punkten, die in einen Unterteilungsbereich eingesetzt werden, den Wert P übersteigt, muß der Bereich in zwei Teilbereiche aufgespalten werden. Es läßt sich zeigen, daß es immer möglich ist, einen überlaufenden Bereich durch zwei neue Bereiche zu ersetzen, von denen jeder mindestens 1/3 der maximalen Anzahl von Punkten P enthält, die in einem einzigen Bereich zugelassen werden.
Fig. 16b zeigt einen Datenraum nach dem ersten Überlaufen und Teilen. Es ist ein Indexknoten geschaffen worden, der zwei Eingaben enthält, von denen jede ein eindeutiger Schlüssel ist, der einen der Unterteilungsbereiche identifiziert. Jeder Indexknoteneingabe ist eine Hinweismarke auf den Datenknoten zugeordnet, der den Unterteilungsbereich und seine umschlossenen Datenpunkte repräsentiert. Es sind keine Annahmen über die Art und Weise gemacht worden, in der die Identifizierschlüssel der Unterteilungsbereiche erzeugt oder repräsentiert werden. Es wird nur angenommen, daß ein oberer Grenzwert F (das Ausgangsauffächerungsverhältnis) für die Anzahl von Eingaben vorhanden ist, die in einem einzigen Indexknoten aufgezeichnet werden können. Die für die Index-Eingaben gezeigte Reihenfolge hat keine Bedeutung: In der Praxis hängt die jeweils gewählte Reihenfolge von der Form der Repräsentation der Unterteilungsbereich-Schlüssel und der Effizienz von Operationen auf diese Darstellung ab. Der besseren Übersicht wegen sind die Datenpunkte selbst in den nachfolgenden Figuren nicht dargestellt.
Ohne daß dies einen Verlust an Allgemeingültigkeit bedeutet, sei angenommen, daß das Ausgangsauffächerungs-Verhältnis F der Indexknoten den Wert Vier hat. Fig. 16c zeigt die Situation nach der Erzeugung dreier zusätzlicher Unterteilungsbereiche mit Schlüsseln e, f, g. Dies bewirkt, daß der Indexknoten nach Fig. 16b überläuft. Die Bereiche, die im Knoten mit Schlüsseln a, d, e, f und g repräsentiert sind, werden dann in zwei Bereiche von Bereichen x und y unterteilt, die den Wurzelknoten eines neuen zweipegeligen Index bilden. Der linke Teil der Fig. 6c zeigt die Unterteilungsbereiche, die bei den oberen und unteren Pegeln des Index dargestellt sind.
Der rechte Teil der Fig. 16c zeigt ferner, daß die Indexsplittung Hand in Hand mit der Beförderung (Promotion) des Eintrags d auf den Pegel darüber gegangen ist. Wenn die Begrenzung einer Teilung (in diesem Fall die Begrenzung des Bereiches y) nicht mit einer vorhandenen Bereichs-Unterteilung zusammenfällt, sondern selbst durch eine oder mehrere Bereichs-Begrenzungen umschlossen ist, wird der Bereich, dessen Begrenzung direkt die Begrenzung der Teilung (in diesem Fall den Bereich d) umschließt, auf den Indexpegel darüber gefördert bzw. angehoben. Wenn d die Wurzel eines Teilbaumes ist, wird der Teilbaum automatisch damit angehoben.
Während sich kreuzender Operationen an der Baumstruktur werden geförderte Eingaben unterschiedlich von nichtgeförderten Eingaben behandelt. Dabei werden geförderte Eingaben als solche gekennzeichnet. Diese Kennzeichnung ist im Diagramm (Fig. 16c rechts) durch Schattieren der Eingabe für den Bereich d angezeigt.
Fig. 16d zeigt das Resultat eines zweiten Überlauf- und Teilvorganges. Der Bereich x ist übergelaufen und in x und v unterteilt. Dies hat dazu geführt, daß ein Bereich e - der direkt den Bereich v umschließt - gefördert worden ist.
Schließlich zeigt Fig. 1 6e das Resultat im Anschluß an mehrere weitere Teilungen, die letztlich die Erzeugung eines dritten Inhaltsverzeichnis-Pegels verursacht haben. Insbesondere ist die Erzeugung des neuen Wurzelknotens von der Förderung (Promotion) sowohl von d als y von dem Pegel darunter begleitet. Dies zeigt die allgemeine Regel, daß dann, wenn ein Bereich p in Bereiche p und q aufgespalten wird, derart, daß q von p umschlossen wird, alle Eingaben bei dem Indexpegel darunter - gleichgültig, ob gefördert oder ungefördert - die Bereiche darstellen, die direkt q umschließen, auf den Pegel der Eingaben für p und q gefördert werden (NB: Zwei Bereiche a und b können beide direkt einen dritten umschließen, wenn a und b aus unterschiedlichen Indexpegeln stammen).
Ein geförderter Bereich p im Knoten n kann ferner überlaufen und in zwei Bereiche p¹ und p¹¹ gespalten werden. Beide resultierenden Bereiche werden dann in gleicher Weise behandelt. Wenn somit p nunmehr entweder p¹ oder p¹¹ darstellt, gilt:
Wenn p direkt einen ungeförderten Bereich im Indexknoten n umschließt, bleibt er im Knoten (wenn nicht das Einführen einer zusätzlichen Eingabe bewirkt, daß der Knoten überläuft). Andernfalls wird eine Suche innerhalb des Knotens n nach der Eingabe e - eines geförderten Pegels, der niedriger ist als der von p, oder ungefördert - durchgeführt, die direkt p umschließt. p wird dann nach dem gleichen Algorithmus in den Knoten eingeführt, auf den die Eingabe e zeigt, d.h. wenn er nicht einen ungeförderten Bereich umschließt, wird er weiter zurückversetzt, bis er seinen eigenen ursprünglichen Indexpegel erreicht hat.
Es sei beispielsweise angenommen, daß der Bereich d in Fig. 16e überläuft und splittet, wie in Fig. 16f dargestellt ist. Im Wurzelindexknoten umschließt der Eintrag d¹¹ direkt einen nichtgeförderten Eintrag q, und damit wird d¹¹ in den Wurzelknoten eingesetzt. d¹ umschließt keine Einträge in den Wurzelknoten, so daß ein Versuch gemacht wird, ihn in den Knoten einzuführen, auf den p zeigt, da p direkt d¹¹ umschließt.
Der Algorithmus wird dann wiederholt: d¹ umschließt v, jedoch nicht direkt, da e den Bereich v direkt umschließt. Deshalb wird d¹ in den Knoten eingesetzt, auf den x zeigt, da x direkt d¹ umschließt. Der Algorithmus endet hier, weil der nicht geförderte Pegel der Eingabe d¹ nunmehr erreicht worden ist.
Nunmehr wird eine Recherche mit exakter Anpassung betrachtet. Sie macht einen Algorithmus erforderlich, der aus einer Kombination einer Vorwärts- und einer Rückwärts- Recherche des Indexbaumes besteht. Die Vorwärtsrecherche beginnt an der Wurzel des Baumes. Es wird eine Recherche im Wurzelknoten nach dem kleinsten Bereich durchgeführt, der den spezifizierten Datenpunkt umschließt (d.h. den Suchschlüssel erfüllt). Wenn ein solcher Bereich festgestellt worden ist, wird dem zugeordneten Zeiger nach abwärts zum nächsten Pegel des Indexbaumes gefolgt, usw., bis ein Datenknoten erreicht ist. Der Datenknoten wird dann nach einem Datenpunkt durchsucht, der den spezifizierten Datenpunkt erfüllt. Ist eine Anpassung festgestellt worden, wird die Recherche fortgesetzt. Andernfalls wird sie abgebrochen. In jedem Fall ist die Recherche dann beendet.
Dieser Vorwärtsrecherche ist eine Recherche überlagert, die über den Vorwärtssuchpfad denselben Weg zurückführt. Wenn ein Anpassungseintrag bei einem Indexpegel 1 während der Vorwärtsrecherche festgestellt wird, geht die Recherche bis zur Wurzel zurück, sucht bei jedem höheren Pegel i(1≤i< L) nach einem geförderten Bereich aus dem Pegel L, der direkt von dem nicht geförderten Anpassungseintragpegel i umschlossen wird, und der eine bessere Anpassung (d.h. einen kleineren Bereich) als ein vorher festgestellter Anpassungsbereich bei einem beliebigen Pegel ergibt. Wenn keine solche bessere Anpassung während des Zurückgehens festgestellt wird, wird die Vorwärtsrecherche an der Stelle wieder aufgenommen, an der das Zurückgehen eingeleitet worden war, d.h. an dem Knoten (bei dem Pegel L + 1), auf den durch den letzten, nicht geförderten Eintrag hingewiesen worden ist, der bei Pegel L festgestellt worden ist. Andernfalls wird die Vorwärtrecherche erneut an dem Knoten gestartet, auf den durch den Eintrag mit der besten Anpassung hingewiesen wird. Dieser Knoten befindet sich auch auf Pegel L1.
Wenn die Vorwärtsrecherche an einem Zweigknoten bei Pegel L versagt, wird die Rückwärtsrecherche erneut eingeleitet, diesesmal wird jedoch eine Suche bei jedem höheren Pegel i(1≤i< L) nach einem geförderten Bereich aus dem Pegel L durchgeführt, der direkt den nichtgeförderten Anpassungseintrag beim Pegel i umschließt. Die Rückwärtsrecherche wird angehalten, sobald ein solcher erster Anpassungseintrag festgestellt worden ist, und die Vorwärtsrecherche wird an dem Knoten, auf den sie hinweist, wieder aufgenommen. Dieser Knoten hat wieder den Pegel L + 1. Wenn die Rückwärtsrecherche keinen Anpassungseintrag bei irgendeinem Pegel findet, tritt sie aus der Wurzel aus, die Suche ist ergebnislos und wird beendet.
Nachstehend werden zwei Beispiele für eine Recherche mit exakter Anpassung gegeben.
Zunächst wird auf Fig. 17 hingewiesen, bei der angenommen ist, daß ein Datenpunkt an einer Stelle P in einem Daten raum lokalisiert ist, der durch einen dreipegeligen Index unterteilt ist, wie in Fig. 17 gezeigt. Eine Suche nach P verläuft dann wie folgt:
Geht man von der Wurzel aus, ist der Schlüssel, der aus dem Datenpunkt P gewonnen wird, dem Eintrag p - und nur dem Eintrag p - im Wurzelknoten angepaßt. Die Suche folgt dann dem Zeiger, der dem Eintrag p zugeordnet ist, nach abwärts zum Indexpegel 2. Bei diesem Pegel ist der Suchschlüssel nur x angepaßt.
An dieser Stelle wird die Rückführsuche aufgerufen: Es wird eine Suche bzw. Recherche bei Pegel 1 unter den Einträgen, die aus dem Pegel 2 bevorzugt sind, durchgeführt. In diesem Fall ist y der einzige Kandidat. y wird direkt von p umschlossen, umschließt jedoch nicht den Punkt P. Die Rückführung versagt deshalb bei diesem Pegel, und da keine höheren Pegel vorhanden sind, versagt sie vollständig, und die Vorwärtsrecherche wird an dem Knoten, auf den durch x hingewiesen wird, bei Pegel 3 wieder aufgenommen.
a ist der einzige Anpassungseintrag für P bei Pegel 3. Eine Rückführung wird erneut aufgerufen: Es wird eine Suche bei Pegel 2 unter den Einträgen, die von dem Pegel 3 aus gefördert werden, durchgeführt. e ist der einzige Kandidat. Er wird direkt von x umschlossen, er umschließt P, und er ist kleiner als a - die vorher beste Anpassung. Damit wird e die laufende beste Anpassung. Die Rückführung wird jedoch fortgesetzt. Bei Pegel list d der einzige Kandidat. Da er nicht kleiner als e ist, bleibt e die beste Anpassung. Nach Erreichen der Wurzel wird die Rückführrecherche angehalten, und die Vorwärtsrecherche wird an dem Knoten, auf den als e gezeigt wird, wieder aufgenommen. Dies ist ein Datenknoten, und damit wird die Suche fortgesetzt, wenn der Punkt p in diesem Knoten festgestellt wird.
Nach Fig. 18 wird angenommen, daß der Punkt P wie in dieser Figur gezeigt positioniert ist. Die Suche nach P geht wie folgt vor sich: Ausgehend von der Wurzel ist der Schlüssel dem Eintrag q angepaßt. Bei Pegel 2 versagt jedoch die Suche, weil P weder in z noch w liegt. Dies bewirkt, daß eine Rückführung aufgerufen wird. Bei Pegel 1 ist y der einzige Kandidateneintrag, der vom Pegel 2 aus gefördert worden ist. Er umschließt auch direkt q, den nicht geförderten Anpassungseintrag in Pegel 1. Die Rückführung wird damit angehalten, und y wird der neue Ausgangspunkt für die Vorwärtssuche. Die Suche versagt jedoch wieder bei Pegel 3, da P weder in f noch in n liegt. Damit wird eine Rückführung erneut aufgerufen. Bei Pegel list d der einzige Kandidateneintrag, der aus dem Pegel 3 gefördert wird. Er umschließt q direkt und umschließt P. Die Rückführung wird erneut angehalten, und die Vorwärtssuche wird von d aus fortgesetzt. Da der auf d weisende Knoten ein Datenknoten ist, ist die Suche erfolgreich, wenn der Punkt p in diesem Knoten festgestellt wird.
Für diese Lösung muß ein Preis bezahlt werden: Der Indexbaum ist nicht mehr abgeglichen. Auf den ersten Blick verletzt dies das wichtigste Prinzip der hierarchischen Indexierung: Ohne einen Suchpfad fester Länge von der Wurzel zum Blatt wird das Verhalten des ungünstigsten Falles für Abfragungen mit exakter Anpassung unkontrollierbar. Was jedoch wirklich entscheidend ist, ist nicht so sehr die Pfadlänge wie die Anzahl unterschiedlicher Baumzweigknoten, die durchlaufen werden. Diese beiden sind unterschiedlich, wenn ein Suchpfad eine Rückführung einschließt. Die gesamte Pfadlänge muß eine voraussagbare obere Grenze haben, eine vernünftige praktische Annahme besteht jedoch darin, daß bei einer Standard-Cache-Technik keine zusätzlichen Wiederauffindkosten beim erneuten Aufsuchen eines Knotens auftreten, der längs des direkten Pfades von der Wurzel zum Blatt liegt.
Es werden die Abwärts- und Aufwärtsabschnitte eines Recherchenpfades mit exakter Anpassung entsprechend dem vorbeschriebenen Such mechanismus betrachtet. Eine Abwärtsrecherche versagt, wenn die Targetposition innerhalb eines geförderten logischen Bereiches liegt, und der Fehler tritt bei dem Pegel auf, von dem aus der Bereich ursprünglich gefördert worden ist. Die Summe aller Knoten, die während der nach abwärts durchlaufenen Phasen einer Recherche mit exakter Anpassung besucht werden, blei ben für eine gegebene Baumgröße konstant. Obgleich ein geförderter Teilbaum weiter auf einen höheren Pegel im Baum gefördert werden kann, und ein Teilbaum eines Teilbaums ebenfalls gefördert werden kann, kann gleichermaßen die gesamte Höhe, über die eine Förderung eines beliebigen logischen Bereiches auftreten kann, nicht größer sein als die Höhe des Baumes. Deshalb ist die Anzahl unterschiedlicher Zweigknoten, die in einer Recherche mit exakter Anpassung besucht werden, stets gleich der Höhe des Baumes.
Wenn ein Teilbaum willkürlich auf einen hohen Pegel gefördert werden kann, geht eine besonders wichtige Eigenschaft einer abgeglichenen Baumstruktur verloren, nämlich die logarithmische Beziehung zwischen der Anzahl von Daten knoten und der Pfad länge von der Wurzel zum Blatt des Index. Diese Beziehung macht vor allem erforderlich, daß die direkte Pfadlänge von der Wurzel zum Blatt für einen gegebenen Zustand des Indexbaumes fest ist, d.h., daß der Baum vollkommen abgeglichen ist. Es macht weiter erforderlich, daß das Ausgangsauffächerungsverhältnis in jedem Indexknoten (mit Ausnahme der Wurzel) nie unter ein fest vorgegebenes Minimum fallen darf (das mindestens eine Größenordnung größer als 1 sein muß). Die lineare Beziehung zwischen der Anzahl von Indexknoten und der Anzahl von Datenknoten ist eine weitere Folge dieser Forderungen.
Die Förderung (Promotion) eines Teilbaumes tritt jedoch nur unter den vorbeschriebenen Umständen auf, und auch nur dann, wenn ein Indexknoten überläuft und sich teilt. Da jeder Indexknoten mit Ausnahme des ersten durch Teilen erzeugt wird, können deshalb insgesamt nicht mehr geförderte Indexeinträge als nichtgeförderte Einträge vorhanden sein, es sei denn durch Teilen eines Eintrags, der bereits gefördert worden ist, da dies einen zweiten Eintrag bei dem gleichen (geförderten) Pegel ergibt.
Es kann sich auch eine weitere Förderung aus dem Pegel darunter ergeben. Es läßt sich beweisen, daß es in solchen Fällen stets möglich ist, alle Einträge mit Ausnahme des einen, der sich aus einer solchen Splittung ergibt, in ihre ursprünglichen (nicht geförderten) Positionen im Indexbaum zurückzuführen. Es ist auch möglich, zu beweisen, daß dies nicht mehr Knotenzugriffe erforderlich macht als notwendig wären, wenn die Einträge nicht gefördert worden wären, d.h., wenn der Baum abgeglichen gewesen wäre.
Dies bedeutet jedoch nicht, daß nie eine größere Anzahl von geförderten Einträgen als ungeförderten Einträgen in einem Indexknoten vorhanden sind. Es wurde weiter oben ausgeführt, daß dann, wenn ein Bereich p in Bereiche p und q aufgespalten wird, derart, daß der Wert p den Wert q umschließt, irgendwelche Einträge bei dem Indexpegel darunter - gleichgültig ob bereits gefördert oder nicht gefördert - die Bereiche repräsentieren, welche direkt q umschließen, auf den Pegel der Einträge für p und q heraufgesetzt werden. Dieser Effekt kann kumulieren, wenn Einträge den Indexbaum hinauf gefördert werden. Im allgemeinen ist die maximal mögliche Anzahl von geförderten Einträgen in einem Knoten bei einem Pegel L eines Indexbaumes maximaler Tiefe d gleich n(d -wobei n die Anzahl von nicht geförderten Einträgen im Knoten ist.
Um sicherzustellen, daß der Suchweg exakter Anpassung von der Wurzel zum Blatt in dem BV-Baum nicht länger ist als der eines abgeglichenen Baumes mit der gleichen Anzahl von Datenknoten, brauchen die Indexknoten beim Pegel L eines BV-Baumes in der Größe nicht um einen Faktor von (d - L + 1) vergrößert werden. (Es ist jedoch zu berücksichtigen, daß die Okkupanz der Indexknoten nicht unter 1/3 fallen wird.) Es ist möglicherweise nicht notwendig, diesen Effekt in der Praxis zu berücksichtigen. Zumindest ist es möglich, dies in einer gesteuerten Weise mit voraussagbaren Folgen, falls erforderlich, durchzuführen.
Dies ist der einzige Preis, der für die Erzielung der charakteristischen Eigenschaften des B-Baumes in n Dimensionen zu zahlen ist. Die Indexknotenokkupanz beträgt im ungünstigsten Fall nur 1/3, verglichen mit 1/2 für den B-Baum. Dies ist jedoch eine Folge von topologischen Betrachtungen anstatt einer Begrenzung einer bestimmten Indexkonstruktion. Wichtiger ist, daß dieser Okkupanzpegel für jeden Indexknoten unter allen Umständen garantiert ist, damit eine minimale Okkupanz für den gesamten Index garantiert ist. Die Okkupanz eines Datenknotens im ungünstigsten Fall bleibt bei 1/2 im ndimensionalen Fall, vorausgesetzt, daß für ein gegebenes Attribut eines Tupel keine zwei Sätze den gleichen Attributwert haben. Sonst fällt die Okkupanz im ungünstigsten Fall auf 1/3.
Der BV-Baum (hierarchischer Index von Speicherseiten), der vorstehend beschrieben worden ist, organisiert die Inhalte der Speicherseiten und die Zugriffspfade zwischen ihnen in solcher Weise, daß die folgenden Eigenschaften erfüllt und unter allen Umständen garantiert sind.
1. Jede Seite entspricht einer Darstellung eines eindeutigen Tejlraumes des Datenraumes;
2. die Zeit für den Zugriff der Seite, die die einen einzigen, spezifizierten Punkt in dem entsprechenden Datenraum darstellenden Daten hält, hängt nur von der Gesamtanzahl von Seiten ab, die verwendet werden, um den gesamten Raum zu repräsentieren, und nimmt nur logarithmisch mit dieser Zahl zu. Insbesondere ist die Zeit unabhängig von dem gewählten Punkt;
3. die Datenokkupanz einer jeden Seite fällt nie unter ein festes und akzeptables Minimum (1/3);
4. die Verteilung von Punkten im Datenraum wird in der Verteilung der Daten in den Speicherseiten genau reflektiert, d.h., daß benachbarte Punkte im Datenraum innerhalb einer einzigen Speicherseite so weit wie möglich repräsentiert sind;
5. die Zeit zum Einsetzen, Löschen oder Modifizieren eines bestimmten Punktes im Datenraum in den entsprechenden Speicherseiten hängt logarithmisch von der Gesamtzahl von Seiten ab;
6. die Leistung von Zugriffs-, Einführungs-, Löschungs- und Modifikations-Vorgängen wird nicht als Folge der Zeitdauer und/oder des Benutzungsausmaßes verringert.
Der BV-Baum repräsentiert die rekursive Unterteilung des Datenraumes in eine Hierarchie von Teilräumen. Ein Merkmal des BV-Baumes besteht darin, daß einige Einträge in den Indexbaum auf einen höheren Pegel des Baumes gefördert bzw. heraufgesetzt werden können, so daß die Länge eines direkten Pfades von der Spitze zum Boden des Baumes nicht notwendigerweise unabhängig von dem gewählten Pfad ist. Trotzdem ist die Anzahl von unterschiedlichen Knoten der Index-Hierarchie, die längs des Suchpfades für einen individuellen Punkt im Daten raum gesichtet werden, für eine konstante Gesamtzahl von Punkten stets gleichbleibend.
Damit festgestellt werden kann, welche Indexeinträge auf diese Weise heraufgesetzt worden sind, wird jeder Indexeintrag mit seiner "Pegelzahl" gekennzeichnet. Dies ist der Pegel des Indexbaumes, bei dem der Eintrag "erzeugt" wurde. Da ein sich erweiternder Baum durch Splitten der Wurzel wächst, werden die Einträge in die untersten (invertierten) Baumknoten mit Pegel 1 gekennzeichnet, und die Einträge im Wurzelknoten haben den höchsten Pegel, der insoweit erzeugt wurde.
Im Prinzip bleibt der Suchalgorithmus zum Auffinden eines Punktes im Index gegenüber der klassischen Baumsuche mit exakter Anpassung, wie im B-Baum, unverändert. Eine Suche wird iterativ bei jedem Pegel der Hierarchie von der Wurzel nach abwärts für die "kleinste" Unterteilung, in der der Punkt liegt, durchgeführt. Der kritische Unterschied zu jeder anderen derartigen Ausführung besteht darin, daß der Indexbaum nicht mehr direkt der Indexhierarchie entspricht.
In Fig. 17 werden beispielsweise nur die Einträge, die als Pegel 3 der Index-Hierarchie gekennzeichnet sind, zu Beginn auf dem obersten Pegel des Indexbaumes geprüft. Bei diesem Beispiel sind dies Einträge p und q. Einträge d (Pegel 1) und y (Pegel 2) werden nicht berücksichtigt. Es sei angenommen, daß eine Anpassung mit dem Eintrag p festgestellt worden ist. Die Suche wird dann auf dem nächst niedrigeren hierarchischen Pegel fortgesetzt. Die Einträge bei dem nächst niedrigeren "hierarchischen" Pegel sind x, v und y. Das sind alle Einträge, die insoweit durchlaufen worden sind, die mit Pegel 2 gekennzeichnet sind, trotz der Tatsache, daß sie nicht alle den gleichen Indexbaumpegel haben. Das beim Splitten von y auftretende Problem wird durch Nicht-Splitten von y vermieden. Stattdessen wird y in die Suche einbezogen, gleichgültig, auf welcher Seite des Indexbaumes die Suche nach abwärts fortschreitet. Die Tatsache, daß d tatsächlich durch die Pegel in Fig. 17 gefördert bzw. heraufgesetzt worden ist, ist eine Folge des rekursiven Anwendens der Idee auf den gesamten Index. Wenn beispielsweise der Targetpunkt in der Unterteilung v auf dem hierarchischen Pegel 2 liegt, sind die Unterteilungen, die beim Pegel 1 gesucht werden, s, r, e und d, d.h. alle Einträge des Pegels 1 in den Knoten, die während des Abstiegs im Indexbaum durchlaufen werden. Es sei erwähnt, daß dann, wenn eine Anpassung mit der Unterteilung v festgestellt worden ist, auch eine Anpassung der Unterteilung x gegeben ist, die v umschließt. Diese Mehrdeutigkeit wird jedoch gelöst, weil der "kleinste" Anpassungseintrag im Index der ist, der genommen wird, d.h. der, der am tiefsten verschachtelt ist.
Die Lösung für das mehrdimensionale Problem, mit dem sich vorliegende Erfindung befaßt, das durch den BV-Baum gegeben ist, ist überraschend. Es ist immer angenommen worden, daß der Indexbaum exakt abgeglichen sein muß, d.h., daß der direkte Pfad von der Wurzel zum Blatt für alle möglichen Pfade der gleiche sein muß. Dies war so, damit sichergestellt ist, daß die Anzahl von gesichteten Baumknoten für alle direkten Pfade gleich groß war. Man hat stets angenommen, daß die beiden Dinge automatisch zusammengehen. Der BV-Baum zeigt jedoch, daß dies nicht der Fall ist. Es spielt keine Rolle, wie unabgeglichen die Baumstruktur ist, wenn der Suchpfad im Baum nach oben und unten so ausgelegt ist, daß die Anzahl von unterschiedlichen, gesichteten Knoten stets die gleiche ist.
Die Positionen der Unterteilungen, ihre Formen und die Art und Weise, in der sie repräsentiert werden, beeinflußt das Prinzip nach vorliegender Erfindung nicht. Die einzigen Beschränkungen in bezug auf die Unterteilungen sind durch Axiome 1 und 2 gegeben. Diese Axiome gelten für alle Unterteilungen im Index zusammengenommen, gleichgültig, zu welchem Pegel der Hierarchie sie gehören. Die ungewöhnlich geformten Unterteilungen der Fig. 16 wurden absichtlich gewählt, um dies zu verdeutlichen. Üblicherweise unterscheiden Indexkonstruktionen nicht zwischen den "Prinzipien" der Konstruktion und ihrer speziellen "Verwirklichung". Dies ist üblich, weil die Konstruktion ganz entscheidend von der Verwirklichung abhängt. In der Praxis sind Unterteilungsformen wie die nach Fig. 16 praktisch nicht ausführbar, weil es schwierig ist, eine kompakte und präzise Darstellung solcher Formen zu finden. Es werden deshalb üblicherweise rechteckförmige Gebilde bzw. Kästchen gewählt. Diese können auf vielfache Weise dargestellt werden. Eine besonders zweckmäßige Möglichkeit besteht darin, die Koordinalen der unteren linken und oberen rechten Ecken zu spezifizieren. Auf diese Weise kann ein Kästchen beliebiger Größe und rechteckiger Form dargestellt werden. Eine alternative Darstellung ist in den Fig. 1 - 4 gezeigt. Der Datenraum ist hier durch progressives Aufteilen exakt in Hälften in abwechselnden Dimensionen (binäre Teilung) unterteilt. Dies ergibt eine eindeutige binäre Identifizierung für jede Unterteilung, wie dargestellt.
Der Vollständigkeit halber werden die Unterschiede zwischen der BANG-Datei und dem BV-Baum wiederholt. Es ist festzuhalten, daß die Erfindung nicht einfach eine Erweiterung der BANG-Datei ist. Das Merkmal der Heraufsetzung von Index-Eintragungen bei einer Unterteilungssplittung ist in gleicher Weise auf andere Indexe mit entsprechend vorteilhaften Effekten anwendbar.
Im Prinzip ist die Index-Hierarchie sowohl für die BANG-Datei als auch dem BV-Baum die gleiche. Der Indexbaum ist jedoch unterschiedlich. Die binären Unterteilungen des Daten raumes, die in der BANG-Datei verwendet werden, und die Darstellung dieser Unterteilungen in der BANG-Kartei als Ketten mit sich ändernder Länge können auch in einer möglichen Darstellung des BV-Baumes verwendet werden. Wie sich aus Vorstehendem ergibt, braucht die Unterteilung nicht binär zu sein, wie dies durch die ungewöhnlich geformten Unterteilungen nach Fig. 16 usw. dargestellt ist. Der BV-Baum kann ferner beispielsweise durch eine auf Bereichen basierende Darstellung beschrieben werden, in der die Unterteilungen durch eine willkürliche Folge von Teilungen an jeder Stelle im Bereich einer Dimension des Datenraumes beschrieben sind. Es gibt hierfür viele Möglichkeiten. Die binäre, auf einer Domäne basierende Unterteilungsdarstellung der BANG-Datei ist nicht die einzige Möglichkeit, einen BV-Baum darzustellen.
Der iterative Index-Suchalgorithmus mit exakter Anpassung im Baum von oben nach unten ist in der BANG-Datei wie im BV-Baum im wesentlichen der gleiche. Der grundlegende Unterschied besteht darin, daß die Indexeintragungen eines hierarchischen Pegels L in der BANG-Datei alle auf dem Pegel L im Baum gespeichert sind, während im BV-Baum bestimmte Einträge eines hierarchischen Pegels L bei Indexbaumpegeln auftreten können, die höher sind als L.
Bei der BANG-Datei folgt jede Suche mit exakter Anpassung dem kürzesten Pfad von der Wurzel zu einem der Blätter des Indexbaumes. Die Anzahl der gesichteten Indexknoten ist für alle solchen Pfade die gleiche, und ist gleich der Anzahl von Pegeln in der Baumhierarchie, d.h. der Höhe des Baumes, der vollständig abgeglichen ist. Beim BV- Baum jedoch sichtet jede Suche mit exakter Anpassung die gleiche Anzahl von unterschiedlichen Baumknoten, und diese Zahl ist gleich dem längsten direkten Pfad von der Wurzel zum Blatt des Indexbaumes, wobei die maximale Höhe des Baumes h ist.
Bei der BANG-Datei und dem BV-Baum ist es stets möglich, eine überfließende Unterteilung bei jedem Index-Baumpegel zu splitten, so daß jede der resultierenden Unterteilungen mindestens ein Drittel des Inhalts (Daten oder Teilungen) der ursprünglichen Unterteilung enthält. Bei der BANG-Datei ist es im allgemeinen jedoch nicht möglich, dies durchzuführen, ohne auch gleichzeitig mindestens eine andere Unterteilung des unteren Indexpegels zu splitten, und in diesem Fall ist es im allgemeinen nicht möglich, den vorerwähnten Splitting-Abgleich aufrecht zu erhalten. Der BV-Baum vermeidet dieses Problem durch Fördern von Unterteilungen.
Der BV-Baum hat folgende Vorteile:
1. In Fällen, in denen das Schema von (relationalen) Datenbank-Abfragen nicht vorhersehbar ist, kann die mittlere Ansprechdauer eine Größenordnung schneller sein als bei einem herkömmlichen eindimensionalen Index. (Der n-dimensionale Index kann weiter als eindimensionaler Index verwendet werden, wenn ein festes Abfrageschema vorhanden ist).
2. Er ermöglicht eine n-dimensionale Indexierung in O(n/B), eine Abfrage exakter Anpassung mit einer I/O Dauer O (log n Basis B), und eine für den ungünstigsten Fall geltende Aktualisierungsdauer O (log n Basis B), wobei n die Gesamtanzahl von indexierten Datenpunkten und B die maximale Anzahl von Indexeinträgen pro Seite ist.
Die hierarchische Indexstruktur, die Datenbankstruktur, die Index- und Suchtechniken, die vorstehend beschrieben wurden, können in einem beliebigen Computersystem einschließlich eines Speichers, insbesondere eines eindimensionalen Speichers, d.h. eines Speichers, der aus einer linearen Folge von Seiten besteht, eingesetzt zu werden. Das Computersystem kann so, wie schematisch in Fig. 19 dargestellt, ausgelegt sein, das einen Computer (Prozessor) 1 mit einer Speichervorrichtung 2, einer Eingabevorrichtung 3 uind einer Display-Vorrichtung 4 enthält.

Claims

1. Computer-Datenspeicher-Managementsystem mit einem Speicher, der eine hierarchische Datenstruktur verwendet, die die rekursive Unterteilung eines Daten raumes in zusammenhängende oder disjunkte Teilräume darstellt, derart, daß die externe Begrenzung eines jeden Teilraumes die externe oder interne Begrenzung eines beliebigen anderen Tejlraumes auf dem gleichen oder einem anderen Pegel der rekursiven Unterteilung nicht schneidet, jedoch die externe Begrenzung des anderen Teilraumes einschließen oder teilweise damit zusammenfallen kann, bei dem die Datenstruktur-Hierarchie eine Vielzahl von Knoten einschließlich eines Wurzelknotens, einer Vielzahl von Zweigknoten und einer Vielzahl von Blattknoten aufweist,

jeder Knoten in der Datenstruktur-Hierarchie einen Teilraum bei entsprechendem oder niedrigerem Pegel in der entsprechenden rekursiven Teilhierarchie darstellt, der Wurzelknoten den gesamten Datenraum darstellt,

jeder Knoten mit tieferem Pegel einen Teilraum des durch einen entsprechenden Vorgängerknoten oder einen Teilraum des durch einen Nachkommen des entsprechenden Vorgängerknotens dargestellten Raumes darstellt, wobei jeder Knoten mit niedrigerem Pegel einen Nachfolgerknoten aufweist,

die Zweigknoten in der hierarchischen Datenstruktur Indexknoten und die Blattknoten Datenknoten sind,

jeder Datenknoten entweder einen Satz von Dateneingaben oder einen Satz von Hinweisadressen enthält, wobei die Bezugsdateneingaben anderswo gespeichert sind,

jede Dateneingabe einen Wert oder Satz von Werten enthält, die direkt oder indirekt die Koordinaten eines Punktes spezifiziert, der die Dateneingabe im Datenraum darstellt,

jeder Indexknoten einen Satz von Indexeingaben enthält,

jede Indexeingabe eindeutig einem der Nachfolger des Indexknotens entspricht, der die Indexeingabe enthält, wobei jeder Indexeingabe zugeordnet ist:

(i) eine entsprechende Hinweisadresse, die sich auf die logische Adresse des Nachfolgerknotens entsprechend der Indexeingabe bezieht, und

(ii) ein Wert oder Satz von Werten, der direkt oder indirekt die externe

Begrenzung des durch die Indexeingabe dargestellten Teilraumes festlegt,

dadurch gekennzeichnet, daß

eine Knotenpromotion bzw. Knotenbeförderung als ein Resultat von Knotenüberläufen aufgrund der Einführung von zusätzlichen Informationen in den Speicher auftreten kann,

ein nicht geförderter Knoten ein Knoten ist, der auf dem gleichen Pegel in der Datenstruktur-Hierarchie wie der Pegel des Teilraumes steht, den er in der entsprechenden rekursiven Teilungshierarchie darstellt, und ein geförderter Knoten ein Knoten ist, der auf einem höheren Pegel in der Datenstruktur-Hierarchie als der Pegel des Teilraumes steht, den er in der entsprechenden rekursiven Teilungshierarchie darstellt,

der Teilraum, der durch einen Nachfolgerknoten dargestellt ist, welcher auf einen entsprechenden Knoten gefördert ist, der ein Teilraum der Summe aller Teilräume ist, der durch einen nicht geförderten Nachfolgerknoten des entsprechenden Knotens dargestellt ist,

und dadurch gekennzeichnet, daß

(i) bei der Einführung der zusätzlichen Information in den Speicher und eines resultierenden Überlaufes eines Indexknotens der Indexknoten in zwei resultierende Indexknoten durch Unterteilen des Raumes, den der Indexknoten darstellt, in zwei Teilräume aufgeteilt wird, wobei die Unterteilung entweder so beschaffen ist, daß die Anzahl von Indexeingaben in die beiden resultierenden Indexknoten so nahe einer Gleichheit wie möglich ist, oder entsprechend einem vorbestimmten Abgleichkriterium in der Verteilung der Indexeingaben zwischen den beiden resultierenden Indexknoten liegt, wobei die beiden resultierenden Indexknoten auf dem gleichen Pegel der Datenstruktur- Hierarchie wie der Indexknoten, von dem sie erzeugt wurden, angeordnet sind und jeder resultierende Indexknoten als Vorgänger den Vorgänger des Indexknotens hat, von welchem er erzeugt worden ist, und

(ii) wenn die externe Begrenzung eines der beiden Teilräume, die durch die resultierenden Indexknoten dargestellt sind, durch die externe Begrenzung des anderen der beiden Teilräume umschlossen ist, und, wenn keine Indexeingabe in dem Indexknoten einen Teilraum darstellt, dessen externe Begrenzung mit der umschlossenen externen Begrenzung zusammenfällt, im Indexknoten jedoch eine nicht geförderte oder geförderte Indexeingabe vorhanden ist, die einen Teilraum darstellen, dessen externe Begrenzung direkt die umschlossene externe Begrenzung umschließt,

dann die nicht geförderte oder geförderte Indexeingabe an den Vorgänger des Indexknotens gefördert wird,

die externe Begrenzung eines ersten Teilraumes direkt die externe Begrenzung eines zweiten Teilraumes umschließt, wenn bei dem gleichen rekursiven Teilungspegel kein dritter Tellraum vorhanden ist, dessen externe Begrenzung durch die externe Begrenzung des ersten Teilraumes umschlossen ist und dessen externe Begrenzung die externe Begrenzung des zweiten Teilraumes umschließt,

daß jeder Indexknoteneingabe eine Anzeige des Pegels in der Hierarchie von rekursiven Teilungen des Datenraumes des durch die Eingabe dargestellten Teilraumes zugeordnet ist, und

daß die innere Begrenzung des Teilraumes, die durch eine Indexeingabe dargestellt ist, implizit durch das Vorhandensein einer oder mehrerer anderer Indexeingaben im Index definiert ist, die dem gleichen oder einem höheren rekursiven Teilungspegel zugehören und von denen jeder einen Teilraum darstellt, den die externe Begrenzung des Tellraumes, die durch die Indexeingabe dargestellt ist, direkt umschließt.

2. Computergestütztes Verfahren zum Verwenden bei der Indexierung eines Datenraumes, der eine Datenbank für mehrdimensionale Informationen umfaßt, wobei das Indexieren eine hierarchische Struktur hat und der Datenraum rekursiv in Teilräume unterteilt ist, bei denen die entsprechenden Indexeingabeknoten in einem Indexbaum angeordnet sind,

dadurch gekennzeichnet, daß

bei der Einführung von zusätzlichen Informationen ein Indexeingabeknoten zum Überlaufen gebracht wird, der in zwei resultierende Indexknoten aufgeteilt wird, indem der Raum, den der Indexknoten darstellt, in zwei Teilräume geteilt wird und diese Unterteilung entweder so vorgenommen wird, daß die Anzahl von Indexeingängen in die beiden resultierenden Indexknoten so nahe wie möglich gleich ist, oder in Übereinstimmung mit einem vorbestimmten Abgleichkriterium in der Verteilung der Indexeingänge zwischen den beiden resultierenden Indexknoten liegt, die beiden resultierenden Indexknoten auf dem gleichen Pegel des Indexbaumes wie der Indexknoten, aus dem sie hervorgegangen sind, angeordnet sind und jeder resultierende Indexknoten als Vorgänger den Vorgänger des Indexknotens hat, aus dem er hervorgegangen ist,

dann, wenn die externe Begrenzung eines der beiden Teilräume, der durch die resultierenden Indexknoten dargestellt wird, von der externen Begrenzung des anderen der beiden Teilräume umschlossen ist, und wenn keine Indexeingabe in den Indexknoten einen Teilraum darstellt, dessen externe Begrenzung mit der umschlossenen externen Begrenzung zusammenfällt, im Indexknoten jedoch eine nicht geförderte oder eine geförderte Indexeingabe vorhanden ist, die einen Teilraum darstellt, dessen externe Begrenzung direkt die umschlossene externe Begrenzung einschließt, dann die nicht geförderte oder geförderte Indexeingabe auf den Vorgänger des Indexknotens gefördert wird, wobei eine nicht geförderte Indexeingabe eine Indexeingabe ist, die auf dem gleichen Pegel in der Datenstruktur-Hierarchie steht wie der Pegel des Teilraumes, den er in der entsprechenden rekursiven Teilungs- Hierarchie darstellt, und eine geförderte Indexeingabe eine Indexeingabe ist, die auf einem höheren Pegel in der Datenstruktur-Hierarchie steht als der Pegel des Teilraumes, den er in der entsprechenden rekursiven Teilungs-Hierarchie darstellt, und die externe Begrenzung eines ersten Teilraumes direkt die externe Begrenzung eines zweiten Teilraumes umschließt, wenn auf dem gleichen rekursiven Teilungspegel kein dritter Teilraum vorhanden ist, dessen externe Begrenzung durch die externe Begrenzung des ersten Teilraumes umschlossen ist, und dessen externe Begrenzung die externe Begrenzung des zweiten Teilraumes umschließt, und

ferner dadurch gekennzeichnet, daß jede neu gewonnene Indexeingabe mit dem Pegel des Teilraumes markiert wird, den sie in der rekursiven Teilungs-Hierarchie darstellt, wodurch die Anzeige von Indexeingaben erleichtert wird, die auf höheren Pegeln im Indexbaum stehen als der Pegel in der rekursiven Teilungs-Hierarchie, dem sie entsprechen.

3. Verfahren zum Durchsuchen eines Computerspeichers mit einer hierarchischen Datenstruktur, die die rekursive Unterteilung eines Datenraumes einer Vielzahl von Dimensionen in zusammenhängende oder disjunkte Teilräume darstellt, und die so ausgelegt ist, daß die externe Begrenzung eines beliebigen Tellraumes die externe oder interne Begrenzung eines beliebigen anderen Teilraumes auf dem gleichen oder einem anderen Pegel rekursiver Unterteilung nicht schneidet, jedoch die externe Begrenzung eines solchen anderen Teilraumes einschließen oder teilweise damit zusammenfallen kann, wobei die Datenstruktur-Hierarchie eine Mehrzahl von Knoten einschließlich eines Wurzelknotens, einer Mehrzahl von Zweigknoten und einer Mehrzahl von Blattknoten in einer Baumstruktur aufweist,

jeder Knoten in der Datenstruktur-Hierarchie einen Teilraum mit einem entsprechenden oder niedrigeren Pegel in der jeweiligen rekursiven Teilungs-Hierarchie darstellt,

der Wurzel knoten den gesamten Datenraum darstellt,

jeder Knoten mit niedrigerem Pegel einen Tellraum des Raumes, der durch einen entsprechenden Vorgängerknoten dargestellt ist, oder einen Teilraum des Raumes, der durch einen Nachkommen des jeweiligen Vorgängerknotens dargestellt wird, darstellt, und jeder Knoten mit niedrigerem Pegel einen Nachfolgerknoten umfaßt, wobei ein nicht geförderter Knoten ein Knoten ist, der auf dem gleichen Pegel in der Datenstruktur-Hierarchie wie der Pegel des Teilraumes steht, den er in der entsprechenden rekursiven Teilungs-Hierarchie darstellt, und ein geförderter Knoten ein Knoten ist, der auf einem höheren Pegel in der Datenstruktur-Hierarchie steht als der Pegel des Teilraumes, den er in der rekursiven Teilungs-Hierarchie darstellt, wobei eine Beförderung (Promotion) als Ergebnis von Knotenüberläufen aufgrund der Einführung von zusätzlichen Informationen in den Speicher auftritt,

der durch einen Nachfolgerknoten dargestellte Teilraum, der auf einen entsprechenden Knoten gefördert wird, ein Teilraum der Summe aller Teilräume ist, die durch nicht geförderte Nachfolger des entsprechenden Knotens dargestellt sind,

jeder Datenknoten entweder einen Satz von Dateneingaben oder einen Satz von Hinweisadressen enthält, die anderswo gespeicherte Dateneingaben betreffen; jede Dateneingabe einen Wert oder Satz von Werten enthält, der direkt oder indirekt die Koordinaten eines Punktes spezifiziert, die die Dateneingabe in den Datenraum darstellen,

jeder Indexknoten einen Satz von Indexeingaben enthält,

wobei

(i) bei Einführung der zusätzlichen Information in den Speicher und resultierendem Überlauf eines Indexeingabeknotens dieser Indexei ngabeknoten in zwei resultierende Indexknoten dadurch geteilt wird, daß der Raum, der den Indexknoten darstellt, in zwei Teilräume unterteilt wird, wobei diese Unterteilung entweder so vorgenommen ist, daß die Anzahl von Indexeingaben in den beiden resultierenden Indexknoten so nahe wie möglich gleich ist, oder in Übereinstimmung mit einem vorbestimmten Abgleichkriterium in der Verteilung der Indexeingaben zwischen den beiden resultierenden Indexknoten ist, wobei die beiden resultierenden Indexknoten auf dem gleichen Pegel der Datenstruktur-Hierarchie wie der Indexknoten, aus dem sie gewonnen wurden, stehen, und jeder resultierende Indexknoten als Vorgänger den Vorgänger des Indexknotens hat, aus dem er hervorgegangen ist, und

(ii) wenn die externe Begrenzung eines der beiden Teilräume, der durch die resultierenden Indexknoten dargestellt ist, durch die externe Begrenzung des anderen der beiden Teilräume umschlossen ist, und wenn keine Indexeingabe im Indexknoten einen Tellraum darstellt, dessen externe Begrenzung mit der umsch lossenen externen Begrenzung zusammenfällt, jedoch im Indexknoten eine nicht geförderte oder geförderte Indexeingabe vorhanden ist, die einen Teilraum darstellt, dessen externe Begrenzung direkt die umschlossene externe Begrenzung umschließt,

die nicht geförderte oder geförderte Indexeingabe dann an den Vorgänger des Indexknotens gefördert wird,

jede Indexeingabe eindeutig dem einen der Nachfolger des Indexknotens entspricht, der die Indexeingabe enthält, wobei jeder Indexeingabe zugeordnet ist:

(i) eine entsprechende Hinweisadresse, die sich auf die logische Adresse des Nachfolgerknotens entsprechend der Indexeingabe bezieht,

(ii) eine Anzeige des Pegels des durch die Eingabe dargestellen Teilraumes in der Hierarchie von rekursiven Unterteilungen des Datenraumes, und

(iii) ein Wert oder ein Satz von Werten, der direkt oder indirekt die externe

Begrenzung des durch die Indexeingabe dargestellten Tellraumes definiert, und die interne Begrenzung des Teilraumes, der durch eine Indexeingabe dargestellt wird, implizit durch das Vorhandensein im Index einer oder mehrerer anderer Indexeingaben definiert ist, die den gleichen oder höheren rekursiven Unterteilungspegeln zugehören und von denen jeder einen Teilraum darstellt, den die externe Umgrenzung des durch die Indexeingabe dargestellten Teilraumes direkt umschließt, die externe Begrenzung eines ersten Teilraumes direkt die externe Begrenzung eines zweiten Teilraumes umschließt, wenn bei dem gleichen rekursiven Teilungspegel kein dritter Teilraum vorhanden ist, dessen externe Begrenzung durch die externe Begrenzung des ersten Teilraumes umschlossen ist, und dessen externe Begrenzung die externe Begrenzung des zweiten Teilraumes umschließt,

dadurch gekennzeichnet, daß

schrittweise die rekursive Teilungs-Hierarchie nach dem kleinsten Teilraum durchsucht wird, die einen Punkt im Datenraum einschließt, der den gesuchten Informationsausdruck darstellt,

die Suche durch schrittweises Rekonstituieren der relevanten Knoten in der rekursiven Teilungs-Hierarchie aus der entsprechenden Index-Hierarchie während des Suchvorganges erreicht wird,

an dem Wurzelknoten des Indexbaumes begonnen wird, wobei die nicht geförderten Indexeingänge im Indexknoten nach einer nicht geförderten Indexeingabe durchsucht werden, die einen Teilraum darstellt, der direkt den den gesuchten Informationsausdruck darstellenden Punkt umschließt,

für den Fall, daß keine solche, nicht geförderte Indexeingabe im Indexknoten festgestellt wird, die Suche als ergebnislos abgebrochen wird,

für den Fall, daß eine solche nicht geförderte Indexeingabe festgestellt wird, die geförderten Indexeingaben im Indexknoten nach den geförderten Indexeingaben durchsucht werden, die entsprechend einen Teilraum darstellen, der direkt den Punkt umschließt, der den gesuchten Informationsausdruck darstellt,

eine Kopie einer jeden solchen geförderten Indexeingabe, die direkt den den gesuchten Informationsausd ruck darstellenden Punkt umschließt, weitergegeben und um einen Pegel zurückgesetzt wird, sowie zum Zweck der Suche nur mit dem Satz von Indexeingaben im nächsten indexierten, zu untersuchenden Knoten umschlossen wird,

der nächste zu untersuchende Indexknoten der Indexknoten ist, auf den die Hinweisadresse bezogen ist, die der nicht geförderten Indexeingabe zugeordnet ist, welche einen Teilraum darstellt, der direkt den Punkt umschließt, welcher den gesuchten Informationsausdruck darstellt,

die Anzahl unterschiedlicher Indexknoten, die während des Suchverlaufes für den gesuchten Informationsausdruck betrachtet werden, über eine konstante Gesamtzahl von im Datenraum enthaltenen Informationsausdrücken konstant gehalten wird.