DE60215063T2

DE60215063T2 - System und verfahren zur ermittlung von bildähnlichkeiten

Info

Publication number: DE60215063T2
Application number: DE60215063T
Authority: DE
Inventors: c/o Eastman Kodak Company Jiebo Rochester Luo; c/o Eastman Kodak Company Wei Rochester Zhu; c/o Eastman Kodak Company George E. Rochester Sotak; c/o Eastman Kodak Company Robert T. Rochester Gray; c/o Eastman Kodak Company Rajiv Rochester Mehrotra
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 2001-01-24
Filing date: 2002-01-14
Publication date: 2007-05-16
Anticipated expiration: 2022-01-15
Also published as: US20020131641A1; EP1227430A2; EP1227430A3; DE60215063D1; JP4160305B2; JP2008262581A; JP2002324237A; US6826316B2; EP1227430B1

Description

Die vorliegende Erfindung betrifft Systeme und Verfahren zur Verarbeitung von Bildern. Insbesondere betrifft die vorliegende Erfindung Systeme und Verfahren zur Veranlassung eines automatischen Bildabrufs.
Ein bildgestützter Dokumentenabruf wird für diverse Kunden sowie kommerzielle und behördliche Anwendungen benötigt. Ursprünglich wurden Bilder manuell abgerufen. Mit zunehmender Größe der Bilddatenbanken wurden allerdings automatische Bildabrufsysteme entwickelt, um den Such- und Abrufvorgang zu beschleunigen.
Ein konventioneller automatischer Ansatz umfasst die Zuordnung bestimmter Schlüsselwörter zu jedem Bild in einer Datenbank. Bilder werden mittels Schlüsselwortsuche abgerufen. Ein Nachteil dieses Systems ist allerdings die zeitintensive Eingabe der Schlüsselwörter für große Datenbanken. Außerdem ist der Ansatz sehr stark von der relativ subjektiven manuellen Zuordnung von Schlüsselwörtern für jedes Bild und für die Suche selbst abhängig. Zudem unterliegt der Ansatz einer Beschränkung bezüglich den Möglichkeiten der angemessenen Beschreibung eines Bildes, um eine effektive Suche zu ermöglichen.
Ein weiterer Ansatz ist der automatische, inhaltgestützte Bildabruf (CBIR/Content-Based Image Retrieval). Dieses System umfasst eine Analyse jedes gespeicherten Bildes in Bezug auf dessen Inhalt (anhand von Farbe, Textur, Form usw.). Beispielsweise wird der Farbgehalt in einem Histogramm gespeichert. Bei dem Such- und Abrufprozess wird das Histogramm eines abgefragten Bildes mit den gespeicherten Histogrammdaten verglichen, um die beste Übereinstimmung zu finden. Dieses System berücksichtigt jedoch nicht die räumliche Verteilung der Farbdaten.
Der meistgenutzte Ansatz für das Durchsuchen einer Datenbank zur Auswahl und zum Abrufen von Bildern ist ähnlich einer Abfrage zum Vergleichen des abgerufenen Bildes mit Bildern in der Datenbank unter Verwendung ihrer merkmalsgestützten Darstellung mittels Distanzfunktionen. (Siehe US-A-5,579,471, "Image Query System and Method", erteilt am 26. November 1996 an R. J. Barber et al.; US-A-5,852,823, "Automatic Image Classification and Retrieval System From Database Using Query-By-Example Paradigm", erteilt am 22. Dezember 1998 an J. S. De Bonet; "Color Indexing", veröffentlicht im Intl. Journal of Computer Vision, von M. J. Swain und D. H. Ballard, Band 7, Nr. 1, 1991, Seite 11–32; und "Comparing Images Using Color Coherence Vectors", veröffentlicht von G. Pass, et al., in Proceedings ACM Multimedia Conf., (1996).
Diese Techniken stellen ein Bild anhand ihrer beschreibenden Merkmale dar, wie Farbe oder Textur. Bei einem gegebenen Abfragebild Q wird dessen merkmalsgestützte Darstellung mit der Darstellung jedes Bildes I in der Datenbank zur Berechnung der Ähnlichkeit von Q und I verglichen. Die Bilder in der Datenbank werden dann in absteigender Reihenfolge ihrer Ähnlichkeit in Bezug auf das Abfragebild eingestuft, um eine Antwort auf die Frage zu bilden. Ein wesentlicher Nachteil dieser Techniken besteht darin, dass keine Unterscheidung zwischen wahrnehmbar signifikanten und insignifikanten Bildmerkmalen in der Bilddarstellung und in den Abstimmungsschemata getroffen wird.
Im Allgemeinen ermittelt ein menschlicher Beobachter die inhaltsgestützte Ähnlichkeit von zwei Bildern hauptsächlich auf der Grundlage der wahrnehmbar signifikanten Inhalte des Bildes und nicht anhand der feineren Details. Durch Nachahmung dieses Verhaltens könnte ein Ähnlichkeitsabrufsystem Ergebnisse erzeugen, die mit der menschlichen Interpretation von Ähnlichkeit stärker übereinstimmen. Diese Tatsache ist jedoch bislang nicht von einer der vorstehend genannten Techniken genutzt worden.
In der US-Parallelanmeldung mit dem Titel "Perceptually Significant Feature-based Image Archival and Retrieval", eingereicht am 14. April 1999 von Wei Zhu und Rajiv Mehrotra, und als Europäische Patentanmeldung Nr. EP 1045313 veröffentlicht, versuchen Zhu et al. die zuvor genannten Nachteile durch Darstellung eines Bildes anhand seiner wahrnehmbar signifikanten Merkmale zu überwinden. Somit wird die Ähnlichkeit von zwei Bildern eine Funktion der Ähnlichkeit ihrer wahrnehmbar signifikanten Merkmale.
Bei diesem Ansatz werden die Bildmerkmale aus den Eigenschaften des gesamten Bildes extrahiert. Es gibt keine Flexibilität bei der Berechnung von Bildmerkmalen oder beim Vergleichen von Bildähnlichkeiten anhand des Hauptobjekts oder der Hintergrundbereiche. Es lassen sich daher keine stärker zielgerichteten Suchläufe durchführen, wie beispielsweise die Suche nach Bildern mit ähnlichen Hauptobjekten aber verschiedenen Hintergründen, als in der Abfrage angegeben.
Am 14. März 2000 wurde US-A-6,038,365 mit dem Titel "Image Retrieval-Oriented Processing Apparatus Which Generates and Displays Search Image Data That Is Used As Index" an T. Yamagami erteilt. Eine Bildverarbeitungsvorrichtung gemäß jeder Erfindung umfasst eine Bestimmungseinheit, die vorgesehen ist, um einen Bildbereich zu bezeichnen, der als Abrufbild aus einem Bild vorgesehen ist, das auf einem Aufzeichnungsmedium aufgezeichnet ist, eine Speichereinheit, um die Bildbereichsdaten zu speichern, die den Bildbereich darstellen, der durch die Bestimmungseinheit bestimmt ist, in Verbindung mit dem entsprechenden aufgezeichneten Bild, und eine Anzeigeeinheit, um ein Bild des Bildbereichs als Abrufbild auf der Grundlage des entsprechenden Bildbereichs anzuzeigen, der in der Speichereinheit gespeichert ist.
Eine Bildverarbeitungsvorrichtung nach US-A-6,038,365 umfasst zudem eine Bestimmungseinheit, um einen Bildbereich aus einem Originalbild, das einen Schirm als Abrufbild darstellt, zu bestimmen, eine Speichereinheit, um das von der Bestimmungseinheit in Verbindung mit dem entsprechenden Originalbild bestimmte Abrufbild zu speichern, eine Anzeigeeinheit, um das Abrufbild wie von der Bestimmungseinheit bestimmt anzuzeigen, eine Anweisungseinheit, um das Abrufbild wie von der Anzeigeeinheit angezeigt anzuweisen, und eine Anzeigesteuerungseinheit, um das Originalbild an der Anzeigeeinheit entsprechend dem Abrufbild und wie von der Anweisungseinheit angewiesen anzuzeigen.
Yamagami scheint demnach die Verwendung eines ausgewählten Bereichs eines Bildes für den Bildabruf zu beschreiben. Allerdings erfolgt die Auswahl manuell mittels einer Bestimmungseinheit. Der Verwendung des ausgewählten Bereichs liegt ein Problem bei der Bildverkleinerung zugrunde, die die Zeichen zu klein werden lässt, als dass sie noch lesbar wären. Da Bilddaten im Allgemeinen nur erkannt werden können, wenn ein menschliches Wesen diese anschaut, kann bei der Reproduktion von Bilddaten eine Liste mit einer Vielzahl reproduzier ter Bilder allgemein angezeigt werden, so dass der Benutzer den Inhalt der Bilddateien prüfen kann, indem er die reduzierten Bilder selbst als Abrufbilder verwendet. Bei der Abrufanzeige reduzierter Bilder, und weil ein Bild einfach beispielsweise auf ein Achtel in Längs- und Querrichtung verkleinert wird, kann das reduzierte Bild allerdings zu klein sein, um mühelos erkannt zu werden, was die Verwendung dieses reduzierten Bildes als Abrufbild unmöglich macht.
Demnach beschreibt Yamagami in US-A-6,038,365 keine automatische, vielseitige Bildabrufvorrichtung. Auch ist die Erfindung von Yamagami nicht auf einem automatischen Szene-Inhalt-Analyseschema aufgebaut. Es besteht daher in der Technik Bedarf nach einem genaueren System oder Verfahren zum automatischen Abrufen von Bildern aus einer Datenbank.
Das Problem wird von dem erfindungsgemäßen System und Verfahren zum Bestimmen der Bildähnlichkeit gelöst. Das erfindungsgemäße Verfahren umfasst die Schritte des automatischen Bereitstellens wahrnehmbar signifikanter Merkmale des Hauptmotivs oder des Hintergrunds eines ersten Bildes; das automatische Bereitstellen wahrnehmbar signifikanter Merkmale des Hauptmotivs oder des Hintergrunds eines zweiten Bildes; das automatische Vergleichen der wahrnehmbar signifikanten Merkmale des Hauptmotivs oder des Hintergrunds des ersten Bildes mit dem Hauptmotiv oder dem Hintergrund des zweiten Bildes und das Bereitstellen einer Ausgabe in Abhängigkeit davon.
In der exemplarischen Implementierung werden die Merkmale mithilfe einer Anzahl von Wahrscheinlichkeitsstufen bereitgestellt, wobei die Zahl der Wahrscheinlichkeitsstufen vorzugsweise größer als zwei ist. In dem exemplarischen Ausführungsbeispiel umfasst der Schritt des automatischen Bereitstellens von wahrnehmbar signifikanten Merkmalen des Hauptmotivs oder des Hintergrunds des ersten Bildes die Schritte des automatischen Identifizierens des Hauptmotivs oder des Hintergrunds des ersten Bildes und den Schritt des Identifizierens der wahrnehmbar signifikanten Merkmale des Hauptmotivs oder des Hintergrunds des ersten Bildes. Weiterhin umfasst der Schritt des automatischen Bereitstellens von wahrnehmbar signifikanten Merkmalen des Hauptmotivs oder des Hintergrunds des zweiten Bildes die Schritte des automatischen Identifizierens des Hauptmotivs oder des Hintergrunds des zweiten Bildes und den Schritt des Identifizierens der wahrnehmbar signifikanten Merkmale des Hauptmotivs oder des Hintergrunds des zweiten Bildes.
Die wahrnehmbar signifikanten Merkmale können Farbe, Textur und/oder Form umfassen. In dem bevorzugten Ausführungsbeispiel wird das Hauptmotiv durch eine kontinuierlich bewertete Wahrscheinlichkeitstabelle bezeichnet. Die Wahrscheinlichkeitswerte des Hauptmotivs werden durch Segmentieren des Bildes in Bereiche aus homogener Farbe und Textur bestimmt, wobei mindestens ein Strukturmerkmal und mindestens ein semantisches Merkmal für jeden Bereich berechnet werden, und durch Berechnen eines Wahrscheinlichkeitswerts für alle Pixel in dem Bereich unter Verwendung eines Bayesschen Netzes, um die Merkmale zu kombinieren.
In einer illustrativen Anwendung ist das erfindungsgemäße Verfahren in einem Bildabrufsystem implementiert. In dieser Implementierung speichert das erfindungsgemäße Verfahren wahrnehmbar signifikante Merkmale des Hauptmotivs oder des Hintergrunds einer Vielzahl von ersten Bildern in einer Datenbank, um den Abruf eines Zielbildes in Ansprechen auf eine Eingabe oder ein Abfragebild zu ermöglichen. Merkmale, die jedem der Vielzahl von gespeicherten Bildern entsprechen, werden automatisch nacheinander mit ähnlichen Merkmalen des Abfragebildes verglichen. Die vorliegende Erfindung stellt demnach ein automatisches System und Verfahren zur Steuerung der Merkmalsextraktion, Darstellung und merkmalsgestützten Ähnlichkeits-Abrufstrategien eines inhaltsgestützten Bildarchivierungs- und Bildabrufsystems auf Basis einer Analyse des Hauptmotivs und des Hintergrunds bereit, abgeleitet von einer kontinuierlich bewerteten Hauptmotiv-Wahrscheinlichkeitstabelle.
Die Erfindung wird im folgenden anhand in der Zeichnung dargestellter Ausführungsbeispiele näher erläutert.
Es zeigen:
1 ein Blockdiagramm eines Ausführungsbeispiels eines automatischen Hauptmotivermittlungssystems.
2 ein vereinfachtes Blockdiagramm eines allgemeinen Schemas für die erfindungsgemäße Bildmerkmalsextraktion.
3 ein Ablaufdiagramm zur Darstellung eines Ausführungsbeispiels für ein Verfahren zur erfindungsgemäßen Identifizierung der wahrnehmbar signifikanten Farben eines Wahrscheinlichkeitsstufenbildes.
4 ein Ablaufdiagramm zur Darstellung eines alternativen Ausführungsbeispiels für ein Verfahren zur erfindungsgemäßen Identifizierung der wahrnehmbar signifikanten Farben eines Wahrscheinlichkeitsstufenbildes.
5 ein Ablaufdiagramm eines Verfahrens zur erfindungsgemäßen Identifizierung wahrnehmbar signifikanter Texturen.
6 u. 7 vereinfachte Blockdiagramme eines allgemeinen Schemas für den erfindungsgemäßen Bildrückabruf.
8 ein Diagramm zur Darstellung einer Reihe von Wahrscheinlichkeitsstufendarstellungen zur Veranschaulichung zahlreicher Optionen für den erfindungsgemäßen Bildabruf.
Ausführungsbeispiele und exemplarische Anwendungen werden unter Bezug auf die anliegenden Zeichnungen beschrieben, um die Vorteile der vorliegenden Erfindung darzulegen.
Die Erfindung wird zwar unter Bezug auf Ausführungsbeispiele für bestimmte Anwendungen beschrieben, dies ist aber nicht einschränkend zu verstehen. Einschlägige Fachleute werden weitere Abwandlungen, Anwendungen und Ausführungsbeispiele innerhalb des Umfangs der Erfindung sowie zusätzliche Felder erkennen, in denen die vorliegende Erfindung von erheblichem Nutzen ist.
Wie zuvor erläutert, ermittelt die vorliegende Erfindung eine Bildähnlichkeit gemäß einer Analyse des Hauptmotivs in der Szene. Ein System zur Ermittlung von Hauptmotiven (d.h. Hauptmotivermittlung oder "MSD/Main Subject Detection") in einem fotografischen Bild für Unterhaltungs- oder Verbraucherzwecke aus der Perspektive eines dritten Beobachters wird in der Parallelanmeldung mit der US-Seriennummer 09/223,860 beschrieben, eingereicht am 31. Dezember 1998 von J. Luo et al. mit dem Titel "METHOD FOR AUTOMATIC DETERMINATION OF MAIN SUBJECTS IN PHOTOGRAPHIC IMAGES" (Attorny-Docket-Nr. 78783) und unter der US-Patentnummer US6282317 veröffentlicht.
Die Hauptmotivermittlung verleiht ein Maß der relativen Bedeutung der unterschiedlichen Bereiche, die den unterschiedlichen Motiven in einem Bild zugeordnet sind. Die Hauptmotivermittlung ermöglicht eine kritische Behandlung des Szeneninhalts für eine Reihe von Anwendungen, die mit den unterhaltungsfotografischen Bildern in Beziehung stehen, einschließlich des automatischen inhaltsgestützten Bildabrufs.
Die konventionelle Kenntnis im Bereich der Computervision, bei der man nachzuahmen versucht, wie ein menschlicher Betrachter solche Aufgaben, wie die Hauptmotivermittlung und Motivextraktion durchführen würde, verlangt einen Problemlösungsansatz über die Motiverkennung und die Inhaltsbestimmung der Szene entsprechend der semantischen Bedeutung der erkannten Motive. Trotz jahrzehntelanger Bemühungen in Wissenschaft und Industrie bleibt eine generische Motiverkennung jedoch eine weitgehend ungelöste Aufgabe.
Das MSD-System baut weitgehend auf Visionsmerkmalen auf niedriger Ebene mit integrierten semantischen Informationen auf, soweit verfügbar. Dieses MSD-System umfasst eine Reihe von Komponenten, einschließlich der Bereichssegmentierung, der Merkmalsextraktion und der Wahrscheinlichkeitsbegründung. Insbesondere wird eine große Zahl von Merkmalen aus jedem segmentierten Bereich in dem Bild extrahiert, um eine Vielzahl visueller Haupteigenschaften darzustellen, die dann in ein abstimmbares, erweiterbares Wahrscheinlichkeitsnetzwerk eingegeben werden können, um eine Wahrscheinlichkeitstabelle zu erstellen, die ein Kontinuum von Werten enthält.
Mithilfe der Hauptmotivermittlung werden Bereiche, die dem Hauptmotiv zugeordnet sind, allgemein von dem Hintergrund im Bild unterschieden. Ein selektiver Abruf gemäß ähnlichen Hauptmotiven oder ähnlichen Hintergründen wird damit möglich. Es wird sogar möglich, einen selektiven Abruf gemäß nicht ähnlicher Hauptmotive oder nicht ähnlicher Hintergründe durchzuführen.
Eine automatische motivgestützte Bildindizierung ist ein nicht trivialer Vorgang, der für nicht eingeschränkte Bilder, die nicht zwingend einen gleichmäßigen Hintergrund enthalten, ohne eine bestimmte Differenzierung nach Szenenverständnis und Szeneninhalt als unmöglich erachtet würde. Bei Abwesenheit einer automatischen Motiv-/Hintergrundtrennung müssen sich konventionelle Systeme entweder auf eine manuell erstellte Maske stützen, um zu verdeutlichen, wo sich das Hauptmotiv befindet, oder sie haben keine Möglichkeit des motivgestützten Bildabrufs. Das manuelle Verfahren ist aufwändig und daher für die kommerzielle Massenverarbeitung im Unterhaltungsbereich nicht durchführbar.
1 zeigt ein Blockdiagramm zur Darstellung eines Ausführungsbeispiels eines automatischen Hauptmotivermittlungssystems, das gemäß der Beschreibung der zuvor genannten Anmeldung mit der US-Patentnummer US6282317 von Luo et al implementiert ist. Gemäß dem System 10' von Luo et al. wird zunächst ein Eingabebild 12' in einige Bereiche von homogenen Eigenschaften (z.B. Farbe und Textur) in einem Bildsegmentierungs-Verarbeitungsschritt 14' segmentiert. Dann werden die Bereiche in einem Merkmalsextraktions-Verarbeitungsschritt 16' auf ihre Bedeutung in Bezug auf zwei unabhängige, jedoch komplementäre Typen bewertet, nämlich auf strukturelle Merkmale und auf semantische Merkmale. Beispielsweise ist die Erkennung von menschlicher Haut oder menschlichen Gesichtern semantisch, während die Ermittlung, was aus dem Hintergrundgemenge hervorsteht, als strukturelle kategorisiert ist. Für strukturelle Merkmale wird ein Satz von Visionsmerkmalen auf niedriger Ebene und ein Satz von geometrischen Merkmalen extrahiert. Für semantische Merkmale werden Schlüsselmotivmerkmale, die in fotografischen Bildern häufig anzutreffen sind, ermittelt. In einem Wahrscheinlichkeitsberechnungs-Verarbeitungsschritt 18' erfolgt die Integration beider Merkmalstypen mithilfe einer Bayesschen netzgestützten Entscheidungsmaschine, um die Wahrscheinlichkeitstabelle 22' des Hauptmotivs zu erzeugen. Zur Bedeutung von Bayesschen Netzen siehe J. Pearl, Probabilistic Reasoning in Intelligent Systems, Morgan Kaufmann, San Francisco, CA, USA, 1988.
Ein strukturelles Merkmal ist die zentrale Lage. Was die Lage angeht, liegt das Hauptmotiv tendenziell in Nähe der Bildmitte anstatt an der Bildperipherie, allerdings nicht unbedingt im Mittelpunkt des Bildes. Profifotografen platzieren das Hauptmotiv meist nach der Regel des „goldenen Schnitts".
Bekanntermaßen reicht aber der Schwerpunkt des Bereichs nicht unbedingt aus, um die Lage eines Bereichs anzuzeigen, wenn keine Hinweise auf dessen Größe und Form vorliegen. Ein Maß für die zentrale Lage wird durch Berechnung des Integrals einer Wahrscheinlichkeitsdichtefunktion (PDF/Probability Density Function) über der Fläche eines gegebenen Bereichs definiert. Die Wahrscheinlichkeitsdichtefunktion wird von den Grundwahrheitsdaten abgeleitet, in denen die Hauptmotivbereiche manuell umrissen und mit einem Wert 1 markiert sind, während die Hintergrundbereiche mit einem Wert 0 markiert sind, indem die Grundwahrheitstabellen über den gesamten Trainingssatz summiert werden. Die Wahrscheinlichkeitsdichtefunktion stellt also im Wesentlichen die Verteilung der Hauptmotive in Bezug auf deren Lage dar.
Erfindungsgemäß wird ein Maß für die zentrale Lage derart abgeleitet, dass jedes Pixel in einem gegebenen Bereich, also nicht nur der Schwerpunkt, zum Maß der zentralen Lage des Bereichs in unterschiedlichem Maße und abhängig von der Lage beiträgt. Das Maß für die zentrale Lage ist definiert als:
wobei (x, y) für ein Pixel in dem Bereich R steht und N_R für die Zahl der Pixel in dem Bereich R steht. Wenn die Ausrichtung unbekannt ist, wird die Wahrscheinlichkeitsdichtefunktion symmetrisch um den Bildmittelpunkt in vertikaler und horizontaler Richtung angeordnet, woraus ein ausrichtungsunabhängiges Maß für die zentrale Lage resultiert. Wenn die Ausrichtung bekannt ist, wird die Wahrscheinlichkeitsdichtefunktion um den Bildmittelpunkt in horizontaler Richtung angeordnet, aber nicht in vertikaler Richtung, woraus ein ausrichtungsabhängiges Maß für die zentrale Lage resultiert.
Ein weiteres Strukturmerkmal ist die Randlage. Viele Hintergrundbereiche berühren tendenziell einen Bildrand oder mehrere Bildränder. Daher gehört ein Bereich, der eine signifikante Konturenmenge an den Bildrändern aufweist, tendenziell zu dem Hintergrund. Erfindungsgemäß werden zwei Maße verwendet, um die Randlage eines Bereichs zu kennzeichnen, nämlich den Prozentsatz seines Umfangs entlang des Bildrands oder der Bildränder und die Zahl der Bildränder, die einen Bereich schneidet.
Wenn die Ausrichtung unbekannt ist, platziert ein Randlagenmerkmal jeden Bereich in eine von sechs Kategorien, die anhand der Zahl und Konfiguration der Bildränder bestimmt sind, mit denen der Bereich „in Kontakt" ist. Ein Bereich ist mit einem Rand "in Kontakt", wenn mindestens ein Pixel in dem Bereich in eine festgelegte Entfernung zum Bildrand fällt. Die Entfernung wird als Teil des kürzeren Maßes des Bildes ausgedrückt. Die sechs Kategorien für Randlage_1 sind {keine, ein Rand, zwei berührende Ränder, zwei gegenüberliegende Ränder, drei, vier}.
Die Kenntnis der Bildausrichtung ermöglicht eine Neudefinition des Randlagenmerkmals zur Berücksichtigung der Tatsache, dass Bereiche, die in Kontakt mit dem oberen Rand sind, mit höherer Wahrscheinlichkeit dem Hintergrund zuzurechnen sind als Bereiche, die mit dem unteren Rand in Kontakt sind. Dadurch ergeben sich 12 Kategorien für Randlage_1, wie anhand der Zahl und der Konfiguration der Bildränder bestimmt, mit denen der Bereich „in Kontakt" ist, wobei die zuvor erläuterte Definition für „in Kontakt" gilt. Die vier Ränder des Bildes sind mit „oben", „unten", „links" und „rechts" markiert, und zwar nach ihrer Lage, wenn das Bild so ausgerichtet ist, dass die Motive in der Szene aufrecht stehen.
Ein zweites Randlagenmerkmal Randlage_2 ist definiert, um zu bezeichnen, welcher Teil des Bereichsumfangs auf dem Bildrand liegt. Weil ein derartiger Teil den Wert von 0,5 nicht überschreiten kann, dient folgende Definition dazu, den Merkmalswert auf [0, 1] zu normalisieren.
Ein weiteres Strukturmerkmal kann die Tiefe sein. Im Allgemeinen ist die Tiefe aller Motive in der Szene nicht verfügbar. Falls dieses Merkmal jedoch verfügbar ist, beispielsweise durch einen Entfernungsmesser, ist es nützlich, um das Hauptmotiv vom Hintergrund zu unterscheiden, weil das Hauptmotiv tendenziell im Vordergrund und näher zum Betrachter hin angeordnet ist. Allerdings ist zu beachten, dass Motive im Vordergrund nicht unbedingt das Hauptmotiv sein müssen.
Ein semantisches Merkmal ist die Haut. Nach einer Untersuchung einer fotografischen Bilddatenbank mit über 2.000 Bildern umfassen mehr als 70% der fotografischen Bilder Menschen, wobei etwa die gleiche Anzahl Bilder deutlich erkennbare Gesichter umfasst. Menschen sind in Fotografien das wichtigste Motiv überhaupt.
Der aktuelle Hauterkennungsalgorithmus nutzt die Farbbildsegmentierung und eine vorbestimmte Hautverteilung in einem bestimmten Farbraum P(Haut | Chrominanz). Bekanntermaßen liegt der Hauptunterschied der jeweiligen Herkunft (Rasse) in der Luminanzrichtung, wobei die Wirkung der Beleuchtungsquellen ebenfalls hauptsächlich die Luminanzrichtung betrifft. Die Klassifizierung des Hautbereichs beruht auf einer maximalen Wahrscheinlichkeit gemäß der mittleren Farbe eines segmentierten Bereichs. Die Wahrscheinlichkeiten werden über eine Sigmoidwahrscheinlichkeitsfunktion auf eine Wahrscheinlichkeitsausgabe abgebildet.
Die Aufgabe der Hauptmotivermittlung besteht somit darin, die Wahrscheinlichkeit eines gegebenen Bereichs in dem Bild als Hauptmotiv zu ermitteln, und zwar beruhend auf der A-posteriori-Wahrscheinlichkeit P(MSD | Merkmal). Es sei darauf hingewiesen, dass für jeden Bereich in dem Bild ein Bayessches Netz aktiv ist. Mit anderen Worten wird die Begründung pro Bereich durchgeführt (anstatt pro Bild).
Die Ausgabe der MSD-Operation ist eine Liste von segmentierten Bereichen in absteigender Reihenfolge ihrer Wahrscheinlichkeit als potenzielle Hauptmotive für eine generische oder spezifische Anwendung. Diese Liste lässt sich ohne weiteres in eine Tabelle umwandeln, in der die Helligkeit eines Bereichs proportional zur Hauptmotivwahrscheinlichkeit des Bereichs ist. Diese Tabelle wird daher als Hauptmotiv-Wahrscheinlichkeitstabelle bezeichnet. Diese Wahrscheinlichkeitstabelle ist mehr als eine binäre Tabelle, die nur die Lage des ermittelten Hauptmotivs angibt. Jedem Bereich ist auch die zugehörige Wahrscheinlichkeit zugeordnet, so dass die Bereiche mit hohen Werten den Bereichen entsprechen, die mit hoher Wahrscheinlichkeit Teil des Hauptmotivs sind.
In gewissem Maße gibt die Wahrscheinlichkeitstabelle die inhärente Unbestimmtheit von Menschen zur Durchführung einer derartigen Aufgabe, wie die Hauptmotivermittlung, wieder, weil verschiedene Beobachter möglicherweise bei bestimmten Motiven hinsichtlich ihrer Bedeutung als Hauptmotiv unterschiedlicher Meinung sind, während sie bei anderen Motiven darin übereinstimmen. Eine binäre Entscheidung lässt sich jedoch – falls gewünscht – ohne weiteres mithilfe eines geeigneten Schwellenwerts in der Wahrscheinlichkeitstabelle erzielen. Die Wahrscheinlichkeitsinformation kann zudem für nachfolgende Anwendungen sehr nützlich sein. Beispielsweise können verschiedenen Bereichen (Motivangelegenheiten) verschiedene Gewichtungsfaktoren zugewiesen werden, um die Betonung auf Motiv oder Hintergrund zu bestimmen.
Um Motiv und Hintergrund zu bestimmen, kann die vorliegende Erfindung auch die Hauptmotivwahrscheinlichkeitstabelle anstelle einer binären Version der Tabelle nutzen, um eine suboptimale und visuell falsche Entscheidung über Hauptmotiv und Hintergrund zu vermeiden. Eine binäre Entscheidung darüber, was einzubeziehen und was nicht einzubeziehen ist, lässt wenig Raum für Fehler, wenn sie erst einmal getroffen ist. Wenn beispielsweise Teilen des Hauptmotivs nicht die höchste Wahrscheinlichkeit zugeordnet wird, ist es bei einem graduellen (im Unterschied zu einem binären) Betonungsprozess wahrscheinlich, dass sie eine gewisse Bedeutung behalten. Wenn – mit anderen Worten – eine unerwünschte binäre Entscheidung darüber, was einzubeziehen oder auszuschließen ist, getroffen ist, bleibt keine Möglichkeit, den Fehler zu korrigieren. Dementsprechend wird die Genauigkeit des Abrufs von der Robustheit des automatischen Hauptmotivermittlungsverfahrens und dem für die binäre Entscheidung verwendeten Schwellenwert abhängig. Bei einer kontinuierlich bewerteten Hauptmotivwahrscheinlichkeitstabelle wird jedem Bereich oder jedem Objekt eine Wahrscheinlichkeit, betont oder nicht betont zu werden, zugewiesen. Darüber hinaus werden sekundäre Hauptmotive durch intermediäre Wahrscheinlichkeitswerte in der Hauptmotivwahrscheinlichkeitstabelle angezeigt und können in einer absteigenden Reihenfolge ihrer Wahrscheinlichkeitswerte betont werden, während das Hauptmotiv mit den höchsten Wahrscheinlichkeitswerten am stärksten betont wird.
Nachdem die Hauptmotivwahrscheinlichkeitstabelle erstellt worden ist, kann eine mehrstufige Wahrscheinlichkeitstabelle von der Hauptmotivwahrscheinlichkeitstabelle mit kontinuierlich bewerteten Motiven anhand einer mehrstufigen Schwellenwert- oder Clusterbildung abgeleitet werden. Dieser Vorgang erzeugt eine schrittweise bewertete Wahrscheinlichkeitstabelle, die einen graduellen, aber diskreten Wahrscheinlichkeitsübergang vom definitiven Hauptmotiv zum wahrscheinlichsten Hauptmotiv kennzeichnet, und zwar bis hinab zum defi nitiven Hintergrund. Fachleute werden erkennen, dass innerhalb des Geltungsbereichs der Erfindung die Anzahl der diskreten Wahrscheinlichkeitsstufen (N) eine beliebige ganze Zahl zwischen 2 (binäre Entscheidung) und der ursprünglichen Auflösung der kontinuierlichen Wahrscheinlichkeitstabelle sein kann. Nachdem die mehrstufige Wahrscheinlichkeitstabelle erstellt worden ist, werden Bildmerkmale für jede der N diskreten Stufen der Wahrscheinlichkeitstabelle berechnet, um eine Bildähnlichkeitsberechnung auf der Grundlage von Hauptmotivbereichen oder Hintergrundbereichen des Bildes zu ermöglichen. Zusammen mit dem Originalbild dient jede Stufe der Wahrscheinlichkeitstabelle als eine Maske, die nur die Pixel auswählt, die zu der jeweiligen Wahrscheinlichkeitsstufe des Originalbildes gehören, und es werden wahrnehmbar signifikante Merkmale für die Pixel berechnet, die zu der jeweiligen Stufe zählen. Ein für eine bestimmte Wahrscheinlichkeitsstufe maskiertes Bild wird daher als „Wahrscheinlichkeitsstufenbild" bezeichnet. Erfindungsgemäß sind Farbe und Textur die bevorzugten Merkmale für die Darstellung jeder Wahrscheinlichkeitsstufe eines Bildes. Fachleute werden erkennen, dass die zusätzlichen Merkmale, wie Form, verwendbar sind, ohne vom Umfang und Geltungsbereich dieser Erfindung abzuweichen.
Erfindungsgemäß umfasst das Verfahren die Schritte des automatischen Bereitstellens wahrnehmbar signifikanter Merkmale des Hauptmotivs oder des Hintergrunds eines ersten Bildes; das automatische Bereitstellen wahrnehmbar signifikanter Merkmale des Hauptmotivs oder des Hintergrunds eines zweiten Bildes; das automatische Vergleichen der wahrnehmbar signifikanten Merkmale des Hauptmotivs oder des Hintergrunds des ersten Bildes mit dem Hauptmotiv oder dem Hintergrund des zweiten Bildes und das Bereitstellen einer Ausgabe in Abhängigkeit davon.
In der exemplarischen Implementierung werden die Merkmale mithilfe einer Anzahl von Wahrscheinlichkeitsstufen bereitgestellt, wobei die Zahl der Wahrscheinlichkeitsstufen vorzugsweise größer als zwei ist. In dem exemplarischen Ausführungsbeispiel umfasst der Schritt des automatischen Bereitstellens von wahrnehmbar signifikanten Merkmalen des Hauptmotivs oder des Hintergrunds des ersten Bildes die Schritte des automatischen Identifizierens des Hauptmotivs oder des Hintergrunds des ersten Bildes und den Schritt des Identifizierens der wahrnehmbar signifikanten Merkmale des Hauptmotivs oder des Hintergrunds des ersten Bildes. Weiterhin umfasst der Schritt des automatischen Bereitstellens von wahrnehmbar signifikanten Merkmalen des Hauptmotivs oder des Hintergrunds des zweiten Bildes die Schritte des automatischen Identifizierens des Hauptmotivs oder des Hintergrunds des zweiten Bildes und den Schritt des Identifizierens der wahrnehmbar signifikanten Merkmale des Hauptmotivs oder des Hintergrunds des zweiten Bildes.
Die wahrnehmbar signifikanten Merkmale können Farbe, Textur und/oder Form umfassen. In dem bevorzugten Ausführungsbeispiel wird das Hauptmotiv durch eine kontinuierlich bewertete Wahrscheinlichkeitstabelle bezeichnet. Die Wahrscheinlichkeitswerte des Hauptmotivs werden durch Segmentieren des Bildes in Bereiche aus homogener Farbe und Textur bestimmt, wobei mindestens ein Strukturmerkmal und mindestens ein semantisches Merkmal für jeden Bereich berechnet werden, und durch Berechnen eines Wahrscheinlichkeitswerts für alle Pixel in dem Bereich unter Verwendung eines Bayesschen Netzes, um die Merkmale zu kombinieren.
In einer illustrativen Anwendung ist das erfindungsgemäße Verfahren in einem Bildabrufsystem implementiert. In dieser Implementierung speichert das erfindungsgemäße Verfahren wahrnehmbar signifikante Merkmale des Hauptmotivs oder des Hintergrunds einer Vielzahl von ersten Bildern in einer Datenbank, um den Abruf eines Zielbildes in Ansprechen auf eine Eingabe oder ein Abfragebild zu ermöglichen. Die Eingabebilder können mithilfe eines Speichermediums, eines Bildscanners oder anderer geeigneter Verfahren bereitgestellt werden. Merkmale, die jedem der Vielzahl von gespeicherten Bildern entsprechen, werden automatisch nacheinander mit ähnlichen Merkmalen des Abfragebildes verglichen. Das erfindungsgemäße Verfahren kann in einem PC oder in einem anderen geeigneten System implementiert werden. Wie bereits vorstehend detailliert erläutert, stellt die vorliegende Erfindung ein automatisches System und Verfahren zur Steuerung der Merkmalsextraktion, Darstellung und merkmalsgestützten Ähnlichkeits-Abrufstrategien eines inhaltsgestützten Bildarchivierungs- und Bildabrufsystems auf Basis einer Analyse des Hauptmotivs und des Hintergrunds bereit, abgeleitet von einer kontinuierlich bewerteten Hauptmotiv-Wahrscheinlichkeitstabelle.
2 zeigt ein vereinfachtes Blockdiagramm eines allgemeinen Schemas zur Bildmerkmalsextraktion unter Nutzung einer Komponente der Hauptmotivermittlung als Mittel zur Unterscheidung von Motiv und Hintergrund, um eine Datenbank von wahrnehmbar signifikanten Merkmalen erfindungsgemäß zu erstellen. Das System 10 umfasst eine Hauptmotivermittlungseinheit 20, die eine Reihe von Eingabebildern 12 und eine entsprechende Wahrschein lichkeitstabelle 22 dafür empfängt. Eine Bildmerkmalsextraktionseinheit 30 empfängt jedes Eingabebild und jedes zugehörige Wahrscheinlichkeitsstufenbild und gibt diesbezüglich wahrnehmbar signifikante Merkmale in eine Datenbank 40 aus.
Der bevorzugte Ansatz zur Identifizierung wahrnehmbar signifikanter Farben eines Wahrscheinlichkeitsstufenbildes beruht auf der Annahme, dass signifikant bemessene, kohärent gefärbte Bereiche wahrnehmbar signifikant sind. Farben von signifikant bemessenen, kohärent gefärbten Bereichen gelten daher als wahrnehmbar signifikante Farben.
Das bevorzugte Ausführungsbeispiel bietet zwei verschiedene Verfahren zur Identifizierung wahrnehmbar signifikanter Farben beliebiger Wahrscheinlichkeitsstufenbilder an. Fachleute werden erkennen, dass alternative Farbmerkmale verwendbar sind, ohne vom Umfang und Geltungsbereich dieser Erfindung abzuweichen. Eines dieser Verfahren wurde zur Einrichtung der Bilddatenbank 40 ausgewählt. 3 zeigt die wichtigsten Schritte dieses ersten Ansatzes.
3 ist ein Ablaufdiagramm zur Darstellung eines Ausführungsbeispiels für ein Verfahren 50 zur erfindungsgemäßen Identifizierung der wahrnehmbar signifikanten Farben eines Wahrscheinlichkeitsstufenbildes. Wie in 3 gezeigt, wird für jedes Wahrscheinlichkeitsstufenbild zunächst in Schritt 52 dessen kohärentes Farbhistogramm berechnet. Ein kohärentes Farbhistogramm eines Bildes ist eine Funktion der Form H(c) = Zahl der Pixel der Farbe c, die zu kohärent gefärbten Bereichen gehören. Hier ist c eine gültige Farbe in dem Dynamikbereich der Pixel auf der aktuellen Wahrscheinlichkeitsstufe. Ein Pixel zählt dann als einem kohärent gefärbten Bereich zugehörig, wenn dessen Farbe gleich oder ähnlich ist wie die Farben einer vorbestimmten Anzahl benachbarter Pixel. Die vorliegende Implementierung hat zwei Definitionen von Kohärenz: (i) ein Minimum von 2 übereinstimmenden oder ähnlichen Nachbarn und (ii) alle Nachbarn stimmen überein oder sind ähnlich. Die gleiche Kohärenzdefinition muss zur Analyse aller Bilder in der Bildarchivierungs- und Abrufphase verwendet werden. Zwei Farben gelten als gleich, wenn alle entsprechenden Kanalwerte gleich sind. Zwei Farben c1 und c2 gelten als ähnlich, wenn deren Differenz diff(c1, c2) kleiner als ein benutzerseitig angegebener Schwellenwert C_T ist. Der bevorzugte Wert von C_T liegt im Bereich von 15% bis 20% des größtmöglichen Wertes von diff(c1, c2). Mehrere verschiedene Farbdifferenzberechnungsverfahren sind möglich. In der vorliegenden Erfindung wird eines der folgenden drei Verfahren zum Vergleichen von zwei L-Kanal-Farben zum Zeitpunkt der Systeminitialisierung gewählt:

(i) Farbe c_x und c_y gelten als ähnlich, wenn |c i / x – c i / y| < C i / T, wobei c i / k den Wert des i-ten Kanals von Farbe c_k bezeichnet, und wobei C i / T den vorgewählten Schwellenwert für die Differenz der i-ten Kanalwerte bezeichnet.
(ii) Farbe c_x und c_y gelten als ähnlich, wenn Σ_i=1,Lw_i·(c i / x – c i / y)² < C_T, wobei c i / k den Wert des i-ten Kanals von Farbe c_k bezeichnet, und wobei w_i für das Gewicht des i-ten Kanals steht und C_T den vorgewählten Schwellenwert bezeichnet.
(iii) Farbe c_x und c_y gelten als ähnlich, wenn Σ_i=1,Lw_i·|(c i / x – c i / y)| < C_T, wobei c i / k den Wert des i-ten Kanals von Farbe c_k bezeichnet, w_i für das Gewicht des i-ten Kanals steht und C_T den vorgewählten Schwellenwert bezeichnet.

In Schritt 54 von 3 wird das kohärente Farbhistogramm analysiert, um die wahrnehmbar signifikanten Farben zu bezeichnen. Eine Farbe k gilt als wahrnehmbar signifikante Farbe, wenn H(k) > T. Hier steht T für einen Schwellenwert. In der vorliegenden Implementierung ist T = 0,5% der Gesamtzahl von Pixeln in dem aktuellen Wahrscheinlichkeitsstufenbild.
Der nächste Schritt 56 stellt die Eigenschaften des aktuellen Wahrscheinlichkeitsstufenbildes in Bezug auf die wahrnehmbar signifikanten Merkmale dar. Die Farbmerkmale des Wahrscheinlichkeitsstufenbildes I werden von einem Vektor der Form I_C = {N, Z, <C_i, S_i>}, 0 < i < N – 1 dargestellt. Hier steht N für die Zahl der wahrnehmbar signifikanten Farben in dem Wahrscheinlichkeitsstufenbild I, Z = ΣS_i, C_i steht für den Farbwert der i^ten wahrnehmbar signifikanten Farbe des Wahrscheinlichkeitsstufenbildes I, und S_i steht für das Verhältnis von H(C_i) zur Gesamtzahl der Pixel in dem Wahrscheinlichkeitsstufenbild I.
4 zeigt die wichtigsten Schritte des zweiten Verfahrens zur Identifizierung wahrnehmbar signifikanter Farben eines Bildes.
4 zeigt ein Ablaufdiagramm zur Darstellung eines alternativen Ausführungsbeispiels für ein Verfahren zur erfindungsgemäßen Identifizierung der wahrnehmbar signifikanten Farben eines Wahrscheinlichkeitsstufenbildes. Das Verfahren 60 ist eine Erweiterung des ersten Verfahrens 50 aus 3. In diesem Fall werden die beiden ersten Schritte 52 und 54 des ersten Verfahrens 50 durchgeführt, um wahrnehmbar signifikante Farben zu ermitteln. Der so ermittelte Satz der wahrnehmbar signifikanten Farben gilt als Ausgangssatz von wahrnehmbar signifikanten Farben und wird umdefiniert, um den Satz der maßgeblich wahrnehmbar signifikanten Farben zu erhalten. Der Verfeinerungsprozess beginnt mit Schritt 62 zum Auffinden verbundener Komponenten oder Bereiche, die ausschließlich aus den Pixeln der Farben zusammengesetzt sind, die zu dem Ausgangssatz der wahrnehmbar signifikanten Farben zählen. Dies wird erreicht, indem das Wahrscheinlichkeitsstufenbild einer Analyse auf verbundene Komponenten unterzogen wird, wobei nur die Pixel der wahrnehmbar signifikanten Farben berücksichtigt werden, während die übrigen außer Acht gelassen werden. Alternativ hierzu können die Ergebnisse der Analyse auf verbundene Komponenten aus der Farbsegmentierung verwendet werden, die während der Hauptmotivermittlung durchgeführt worden ist, wobei ein Schritt hinzugefügt wird, bei dem die verbundenen Bereiche aussortiert werden, die durch zuvor bestimmte, nicht wahrnehmbar signifikante Farben gebildet werden. Zwei benachbarte Pixel (4 oder 8 Nachbarn) mit wahrnehmbar signifikanten Farben (d.h. Farben in dem Ausgangssatz der wahrnehmbar signifikanten Farben) gelten nur als verbunden, wenn es sich um übereinstimmende/ähnliche Farben handelt.
In Schritt 64 werden die so erhaltenen Bereiche analysiert, um den Satz der maßgeblich wahrnehmbar signifikanten Farben zu bestimmen. Eine verbundene Komponente, die größer als ein vorbestimmter Schwellenwert T_s ist, gilt als maßgeblich wahrnehmbar signifikantes Segment. In der vorliegenden Implementierung ist T_s = 0,25% der Gesamtzahl von Pixeln in dem aktuellen Wahrscheinlichkeitsstufenbild. Farben, die zu maßgeblich wahrnehmbar signifikanten Segmenten gehören, bilden den Satz der wahrnehmbar signifikanten Farben für die Bilddarstellung.
Der letzte Schritt 66 stellt die Eigenschaften des aktuellen Wahrscheinlichkeitsstufenbildes in Bezug auf dessen wahrnehmbar signifikanten Farben dar. Es sei darauf hingewiesen, dass dieser letzte Satz von wahrnehmbar signifikanten Farben eine Untermenge des Ausgangssatzes von wahrnehmbar signifikanten Farben ist.
Einschlägige Fachleute werden erkennen, dass mehrere Abwandlungen der beiden vorstehend genannten farbgestützten Bilddarstellungen innerhalb des Umfangs und Geltungsbereichs der Erfindung möglich sind. Beispielsweise ist eine Kombination der beiden Darstellungen eine direkte Erweiterung, wobei die Darstellung des Verfahrens 1 erweitert wird, indem jede wahrnehmbar signifikante Farbe nach einem Typ qualifiziert wird, der angibt, ob diese Farbe zu einem maßgeblich wahrnehmbar signifikanten Segment gehört oder nicht.
Erfindungsgemäß erfolgt die auf einem Texturmerkmal gestützte Darstellung eines Bildes in Bezug auf wahrnehmbar signifikante Texturen, die in dem Bild vorhanden sind. Der bevorzugte Ansatz zur Identifizierung wahrnehmbar signifikanter Texturen eines Wahrscheinlichkeitsstufenbildes beruht auf der Annahme, dass jede wahrnehmbar signifikante Textur aus einer Vielzahl von Wiederholungen desselben Farbübergangs oder derselben Farbübergänge zusammengesetzt ist. Durch Identifizierung der häufig auftretenden Farbübergänge und Analysieren ihrer Textureigenschaften können wahrnehmbar signifikante Texturen extrahiert und dargestellt werden. Das bevorzugte Ausführungsbeispiel für die Identifizierung von wahrnehmbar signifikanten Texturen eines Wahrscheinlichkeitsstufenbildes ist in 5 dargestellt. Fachleute werden erkennen, dass alternative Texturmerkmale verwendbar sind, ohne vom Umfang und Geltungsbereich dieser Erfindung abzuweichen.
5 zeigt ein Ablaufdiagramm eines Verfahrens zur erfindungsgemäßen Identifizierung wahrnehmbar signifikanter Texturen. Der erste Schritt 72 in dem Prozess 70 besteht darin, alle Farbübergänge zu ermitteln, die in dem aktuellen Wahrscheinlichkeitsstufenbild vorhanden sind. Ein Farbübergang tritt zwischen einem aktuellen Pixel (c) und seinem vorherigen Pixel (p) auf, wenn eine Änderung des Farbwerts dist(c, p) größer ist als ein vorbestimmter Schwellenwert th. Der bevorzugte Wert von th liegt im Bereich von 15% bis 20% des größtmöglichen Wertes von dist(c, p). Ein Pixel, bei dem ein Farbübergang auftritt, wird als Farbübergangspixel bezeichnet. In dem dargestellten Ausführungsbeispiel ist eines der folgenden beiden Verfahren wählbar, um zwei L-Kanalfarben zu vergleichen und das Auftreten oder die Ausprägung einer Änderung des Farbwerts, also eines Farbübergangs, zu ermitteln:

(i) Das aktuelle Pixel wird als Farbübergangspixel identifiziert, wenn: |c.ch0 – p.ch0 ≥ th.ch0 oder |c.ch1 – p.ch1| ≥ th.ch1 ... oder |c.chi – p.chi| ≥ th.chi 0 ≤ i ≤ L [3]wobei c.ch_i für den i-ten Farbkanalwert des aktuellen Pixels, p.ch_i für den i-ten Farbkanalwert des vorherigen Pixels und th.ch_i für die vordefinierte Differenzschwelle für den i-ten Farbkanal steht.
(ii) Das aktuelle Pixel wird als Farbübergangspixel identifiziert, wenn:
wobei c.ch_i für den i-ten Farbkanalwert des aktuellen Pixels, p.ch_i für den i-ten Farbkanalwert des vorherigen Pixels und th für die vordefinierte Farbdifferenzschwelle steht.

Einschlägige Fachleute werden erkennen, dass das Konzept des Farbübergangs in monochromen Bildern als ein Graustufen- oder Helligkeitsübergang definiert werden kann. Sie würden zudem erkennen, dass innerhalb des Geltungsbereichs dieser Erfindung eine andere Farbdifferenzmetrik verwendbar ist, um das Vorhandensein eines Farbübergangs zu ermitteln.
Erfindungsgemäß werden die Wahrscheinlichkeitsstufenbilder horizontal und vertikal abgetastet, um alle Farbübergangspixel nach einem der zuvor genannten Verfahren zu identifizieren. Jedes Farbübergangspixel signalisiert einen Farbübergang, und jeder Farbübergang ist durch die beiden Farben (c1, c2) dargestellt, die den vorherigen und den aktuellen Pixelfarbwerten entsprechen, die den Farbübergang bilden.
Der zweite Schritt 74 in dem Prozess 70 aus 5 besteht darin, alle häufig auftretenden Farbübergänge zu identifizieren. Zwei bemaßte Farbübergangshistogramme, bei denen c1 und c2 die beiden Dimensionen bilden, werden konstruiert, um die Frequenz der in dem vorherigen Schritt ermittelten diversen Farbübergänge aufzuzeichnen. Ein globales Farbübergangshistogramm ist aus allen in dem Bild gefundenen Farbübergängen konstruiert und besetzt.
Durch Auffinden sämtlicher Spitzen in dem Farbübergangshistogramm, die ebenfalls einen vorbestimmten Mindesthäufigkeitsschwellenwert von Ausprägungen überschreiten, identifiziert die häufig auftretenden Farbübergänge. Die bevorzugte Mindesthäufigkeitsschwelle zur Identifizierung häufig auftretender Farbübergänge für das globale Farbübergangshistogramm ist 0,25% der Gesamtzahl von Pixeln in dem aktuellen Wahrscheinlichkeitsstufenbild.
Der dritte Schritt 76 in dem Prozess 70 ist eine Textureigenschaftenanalyse von häufig auftretenden Farbübergängen zur Darstellung wahrnehmbar signifikanter Texturen. Für jeden häufig auftretenden Farbübergang wird jede Ausprägung dieses bestimmten Farbübergangs in dem aktuellen Wahrscheinlichkeitsstufenbild aufgefunden, und es wird ein Maß und ein Gradientenwert berechnet. In dem aktuellen Ausführungsbeispiel wird das Maß als Distanz in Pixeln zwischen der Ausprägung von Farbe c1 und Farbe c2 berechnet. Der Gradient wird als tan^–1(g_y/g_x) berechnet, wobei g_y und g_x die vertikalen bzw. horizontalen Kanteninformationen an dem Farbübergang sind, wie mithilfe des Sobel-Gradientenoperators berechnet. Der Sobel-Gradientenoperator ist in der Technik bekannt.
Es sei darauf hingewiesen, dass auch andere Techniken zur Berechnung der Maß- und Gradientenwerte möglich sind, ohne vom Umfang und Geltungsbereich der Erfindung abzuweichen.
Die berechneten Maß- und Gradientenwerte für jede Ausprägung dienen dazu, ein Maß-/Gradienten-Histogramm zu erstellen. Nachdem sämtliche Ausprägungen berücksichtigt worden sind, wird das Maß-/Gradienten-Histogramm benutzt, um die Textureigenschaften der wahrnehmbar signifikanten Textur zu analysieren. Für Zufallstexturen ist das Maß-/Gradienten-Histogramm zufällig verteilt, während sich für strukturierte Texturen ein deutlicher Modus in Bezug auf Maß, Gradient oder beidem im Maß-/Gradienten-Histogramm ermitteln lässt. Für einen Farbübergang, der einer Zufallstextur entspricht, wird das Maß-/Gradienten-Histogramm benutzt, um den mittleren Maß-/Gradienten-Vektor und die Kovarianzmatrix für Maß und Gradient zu berechnen. Für einen Farbübergang, der einer strukturierten Textur entspricht, wird der entsprechende Histogrammmodus verwendet, um den mittleren Maß-/Gradienten-Vektor und die Kovarianzmatrix für Maß und Gradient zu berechnen. Die Eigenschaften werden zur Darstellung einer wahrnehmbar signifikanten Textur benutzt.
Der letzte Schritt 78 stellt das Wahrscheinlichkeitsstufenbild in Bezug auf dessen wahrnehmbar signifikante Texturen dar. Ein Wahrscheinlichkeitsstufenbild I wird durch einen Vektor der Form I_T = {N, Z, < C¹ _i, C² _i, P_i, M_I, V_i, S_i,>}, 0 < i < N – 1 dargestellt. Hier steht N für die Zahl maßgeblich wahrnehmbar signifikanter Texturen im Wahrscheinlichkeitsstufenbild I; Z = ΣS_i; C¹ _i und C² _i stehen für den Farbwert des häufig auftretenden Farbübergangs, entsprechend der i-ten wahrnehmbar signifikanten Textur; P_i steht für den Strukturtyp der i-ten wahrnehmbar signifikanten Textur und kann einen der folgenden möglichen Werte annehmen: zufällig, maßstrukturiert, gradientenstrukturiert oder maß-gradienten-strukturiert; M_I und V_i sind der mittlere Maß-Gradienten-Vektor bzw. die Maß-Gradienten-Kovarianzmatrix der i-ten wahrnehmbar signifikanten Textur in dem Satz, und S_i steht für die gesamte Flächendeckung der i-ten wahrnehmbar signifikanten Textur, wie durch Kumulieren aller Maßwerte über alle Ausprägungen des häufig auftretenden Farbübergangs berechnet, die der i-ten wahrnehmbar signifikanten Textur entsprechen. Einschlägige Fachleute werden erkennen, dass auch andere Textureigenschaften oder eine Untermenge/LTbermenge von I_T verwendbar ist, um eine wahrnehmbar signifikante Textur darzustellen, ohne vom Umfang und Geltungsbereich der Erfindung abzuweichen.
Die wahrnehmbar signifikanten Merkmale für jedes der Wahrscheinlichkeitsstufenbilder werden somit berechnet und in Vektorform dargestellt. Jedes Bild wird durch N Sätze aus Farb- und Texturmerkmalsdarstellungen vollständig dargestellt, die N Wahrscheinlichkeitsstufen entsprechen, wobei diese Darstellungen zusammen mit den Bildern in der Datenbank 40 für die spätere Abfrage und den späteren Abruf gespeichert werden. Einschlägige Fachleute werden erkennen, dass andere Merkmale, wie Struktur, Zusammensetzung und Form ebenfalls berechnet und zur Darstellung der Wahrscheinlichkeitsstufenbilder verwendet werden können, ohne vom Umfang und Geltungsbereich der Erfindung abzuweichen.
Wie in 2 gezeigt, besteht der nächste Schritt nach dem Erzeugen der auf wahrnehmbar signifikanten Merkmalen gestützten Bildmerkmalsdarstellung für jede Wahrscheinlichkeitsstufe darin, das Digitalbild und die zugehörige Darstellung in die entsprechende Datenbank 40 und die entsprechenden Indexstrukturen einzufügen. Einschlägige Fachleute werden erkennen, dass die übergeordnete Datenbankorganisation von dem zugrundeliegenden Datenbank-/Dateiverwaltungssystem abhängig ist. In der vorliegenden Implementierung befinden sich die Digitalbilder in der Bilddatenbank. Die Bildmerkmalsdarstellungen für jedes Wahr scheinlichkeitsstufenbild werden ebenfalls in der Datenbank gespeichert, ebenso wie die Indizierungsstrukturen. Zusätzlich zu den wahrnehmbar signifikanten Merkmalsdarstellungen enthält eine Bildmerkmalsdarstellung auch den Bildbezeichner/-locator, der als Referenz auf die Digitalbilddatei dient. Der Name oder die Kennung des Bildes dienen als Locator von dessen Darstellung.
Einschlägige Fachleute werden erkennen, dass die Wahl der Indexstruktur zur Organisation einer Datenbank von den durch die Indexstruktur durchzuführenden gewünschten Funktionen abhängt. Die in der aktuellen Implementierung benötigte Funktionalität ermöglicht die Auswahl und den Rückgriff auf Bilder, die einem gegebenen Abfragebild ähnlich sind. Unter der Voraussetzung, dass ein wahrnehmbar signifikantes Merkmal f eines gegebenen Wahrscheinlichkeitsstufenbildes vorhanden ist, liefert die Indexstruktur die Liste der Zeiger/Refe-renzen auf alle Bilder in der Datenbank, die das Merkmal f in dem entsprechenden Wahrscheinlichkeitsstufenbild enthalten, um diese Funktionalität zu ermöglichen.
In dem bevorzugten Ausführungsbeispiel wird für farbgestützte Suchläufe ein Index auf der Basis der wahrnehmbar signifikanten Farbe erstellt. Einen gegebenen Farbwert auf einer bestimmten Wahrscheinlichkeitsstufe vorausgesetzt, liefert der Index also eine Liste von Bildern, die diese Farbe als eine wahrnehmbar signifikante Farbe auf dieser speziellen Wahrscheinlichkeitsstufe enthält. Für texturgestützte Suchläufe wird einer oder werden beide der folgenden Indizes erstellt: (a) ein Index, der einem Farbübergang auf einer bestimmten Wahrscheinlichkeitsstufe eine Liste von Bildern zuordnet, die wahrnehmbar signifikante Texturen enthalten, die aus diesem Farbübergang auf dieser speziellen Wahrscheinlichkeitsstufe zusammengesetzt sind; und (b) einen Index, der einem Paar aus <Farbübergang, Texturtyp> auf einer bestimmten Wahrscheinlichkeitsstufe eine Liste von Bildern zuordnet, die wahrnehmbar signifikante Texturen des Typs enthalten, der aus diesem Farbübergang auf dieser speziellen Wahrscheinlichkeitsstufe zusammengesetzt ist. Einschlägige Fachleute werden erkennen, dass auch andere Indexstrukturen innerhalb des Umfangs und Geltungsbereichs der Erfindung implementierbar sind.
Die wesentlichen Schritte des auf dem Beispielbild basierten Ähnlichkeitsbild-Abruf-/Auswahlprozesses aus der Bildabfrage- und Rückgriffphase sind in 6 dargestellt.
6 u. 7 zeigen vereinfachte Blockdiagramme eines allgemeinen Schemas für den erfindungsgemäßen Bildrückabruf. 7 ist im Wesentlichen mit 6 identisch, ausgenommen der zusätzlichen Details in Bezug auf die Datenbank 90. In der Merkmalsextraktionseinheit 86 wird eine gewünschte Darstellung in Bezug auf ein gegebenes Abfrage-Beispielbild entweder berechnet oder ermittelt. Wenn das Abfrage-Beispielbild aus der aktuellen Bilddatenbank ausgewählt wird, stammt also auch dessen Darstellung aus der Datenbank. Wenn das Abfrage-Beispielbild ein neues Bild ist, wird zunächst dessen Wahrscheinlichkeitsstufe berechnet, dessen mehrstufige Wahrscheinlichkeitstabelle erstellt und die Merkmalsdarstellungen, wie zuvor für jedes der Wahrscheinlichkeitsstufenbilder beschrieben, werden anschließend berechnet. Dann werden die Darstellungen der Datenbankbilder in einer Such- und Vergleichseinheit 90 mit der Darstellung des Abfragebildes verglichen, um ein Ähnlichkeitsmaß zu ermitteln. Abschließend werden die Datenbankbilder nach der berechneten Ähnlichkeit mit dem Abfragebild sortiert.
Um die Ähnlichkeit zwischen einem Abfragebild und einem Datenbankbild zu ermitteln, wird zunächst die farbgestützte Ähnlichkeit, die texturgestützte Ähnlichkeit oder eine Kombination aus beiden für jedes der N entsprechenden Wahrscheinlichkeitsstufen-Abfragebilder und Wahrscheinlichkeitsstufen-Datenbankbilder berechnet. Für die farbgestützte Ähnlichkeit sind die bevorzugten Optionen für ein Ähnlichkeitsmaß:
wobei K für die Zahl der übereinstimmenden Farben des Wahrscheinlichkeitsstufen-Abfragebildes q und des Wahrscheinlichkeitsstufen-Datenbankbildes d steht; S q / i und S d / i stehen für die Größenattributwerte für die i-te übereinstimmende Farbe der Wahrscheinlichkeitsstufenbilder q bzw. d; diff steht für eine normalisierte Distanzfunktion des Typs L_x|.| für einen gegebenen Wert x; und Ω_q und Ω_d stehen für den Satz aus Größenattributwerten der entsprechenden wahrnehmbar signifikanten Farben der Wahrscheinlichkeitsstufenbilder q und d. Für eine texturgestützte Ähnlichkeit ist das bevorzugte Maß für die Ähnlichkeit zwischen dem Abfrage-Beispiel-Wahrscheinlichkeitsstufenbild und dem zu prüfenden Wahrscheinlichkeitsstufenbild eine Funktion der Ähnlichkeit ihrer übereinstimmenden wahrnehmbar signifikanten Texturen sowie die gesamte Flächendeckung ihrer übereinstimmenden wahrnehmbar signifikanten Texturen. Zwei wahrnehmbar signifikante Texturen stimmen überein, wenn sie in ihrer Darstellung übereinstimmende Farbwerte C1, C2 und denselben Textureigenschaftswert P (zufällig oder strukturiert) aufweisen. In dem bevorzugten Ausführungsbeispiel wird für jede übereinstimmende wahrnehmbar signifikante Textur die Ähnlichkeit aus dem mittleren Maß-Gradienten-Vektor M und der Maß-Gradienten-Kovarianzmatrix V anhand entweder der euklidischen Distanz oder der Mahalanobis-Distanz berechnet. Es sei darauf hingewiesen, dass auch andere Distanzfunktionen innerhalb des Umfangs und Geltungsbereichs der Erfindung verwendbar sind. Die Gesamtwertung der Bildähnlichkeit zwischen dem zu prüfenden Bild und dem Abfrage-/Beispiel-Wahrscheinlichkeitsstufenbild ist als die Summe der Ähnlichkeitswerte aller übereinstimmenden wahrnehmbar signifikanten Texturen definiert, multipliziert mit einer Funktion (flach, linear, nichtlinear) der relativen Flächendeckung S der Textur in dem Wahrscheinlichkeitsstufenbild. Für eine Kombination aus Farb- und Texturähnlichkeit lässt sich die gewichtete Summe der farbgestützten und der texturgestützten Ähnlichkeiten berechnen. Fachleute werden erkennen, dass die zusätzlichen Merkmale, beispielsweise Formmerkmale und Merkmalskombinationen zur Bestimmung der Ähnlichkeit verwendbar sind, ohne vom Umfang und Geltungsbereich dieser Erfindung abzuweichen.
Die gesamte Bildähnlichkeit zwischen einem Abfragebild und einem Datenbankbild wird als die gewichtete Summe der Ähnlichkeit jeder der entsprechenden Wahrscheinlichkeitsstufendarstellungen wie folgt berechnet:
wobei N für die Zahl der Wahrscheinlichkeitsstufen, s_i für die Ähnlichkeit zwischen dem Abfrage- und dem Datenbankbild für die i^te Wahrscheinlichkeitsstufe und w_i für das der i^ten Wahrscheinlichkeitsstufe zuzuordnende Gewicht steht. Das jeder einzelnen Wahrscheinlichkeitsstufe zugeordnete Gewicht hängt von der gewünschten Art des Abrufs ab. In dem bevorzugten Ausführungsbeispiel gibt es sechs verschiedene Optionen für den Bildabruf nach einer Hauptmotivwahrscheinlichkeitstabelle:

(1) Bildabruf gestützt auf die Ähnlichkeitswerte aus allen Wahrscheinlichkeitsstufen des Bildes mit stärkster Betonung auf den kräftigsten Hauptmotivwahrscheinlichkeitsstufen und mit der schwächsten Betonung auf den kräftigsten Hintergrundwahrscheinlichkeitsstufen. 8a zeigt in diesem Fall eine typische Verteilung von w_i mit monoton fallenden Werten von den Hauptmotivstufen bis zu den Hintergrundstufen.
(2) Bildabruf gestützt auf die Ähnlichkeitswerte aus allen Wahrscheinlichkeitsstufen, die den Hauptmotivbereichen des Bildes zugeordnet sind. 8b zeigt in diesem Fall eine typische Verteilung von w_i mit monoton fallenden Werten von w_i in den Hauptmotivwahrscheinlichkeitsstufen, jedoch mit null Werten von w_i in den Hintergrundwahrscheinlichkeitsstufen.
(3) Bildabruf gestützt auf die Ähnlichkeitswerte aus nur den Wahrscheinlichkeitsstufen, die den Hintergrundbereichen des Bildes zugeordnet sind. 8c zeigt in diesem Fall eine typische Verteilung von w_i mit monoton steigenden Werten von w_i in den Hauptmotivwahrscheinlichkeitsstufen, jedoch mit null Werten von w_i in den Hauptmotivwahrscheinlichkeitsstufen.
(4) Bildabruf gestützt auf eine Differenzkombination von Ähnlichkeitswerten, abgeleitet von den Hauptmotivwahrscheinlichkeitsstufen und den Hintergrundwahrscheinlichkeitsstufen, mit positiver Betonung der Ähnlichkeit in den Hauptmotivwahrscheinlichkeitsstufen und negativer Betonung der Ähnlichkeit in den Hintergrundwahrscheinlichkeitsstufen. 8d zeigt in diesem Fall eine typische Verteilung von w_i mit positiv monoton fallenden Werten von w_i in den Hauptmotivwahrscheinlichkeitsstufen und negativ monoton fallenden Werten von w_i in den Hintergrundwahrscheinlichkeitsstufen.
(5) Bildabruf gestützt auf eine Differenzkombination von Ähnlichkeitswerten, abgeleitet von den Hauptmotivwahrscheinlichkeitsstufen und den Hintergrundwahrscheinlichkeitsstufen, mit negativer Betonung der Ähnlichkeit in den Hauptmotivwahrscheinlichkeitsstufen und positiver Betonung der Ähnlichkeit in den Hintergrundwahrscheinlichkeitsstufen. 8e zeigt in diesem Fall eine typische Verteilung von w_i mit negativ monoton steigenden Werten von w_i in den Hauptmotivwahrscheinlichkeitsstufen und positiv monoton steigenden Werten von w_i in den Hintergrundwahrscheinlichkeitsstufen.
(6) Bildabruf gestützt auf eine Differenzkombination von Ähnlichkeitswerten, abgeleitet von den Hauptmotivwahrscheinlichkeitsstufen und den Hintergrundwahrscheinlichkeitsstufen, mit zufälliger oder jeder gewünschten Betonung der verschiedenen Hauptmotivwahrscheinlichkeitsstufen und der Hintergrundwahrscheinlichkeitsstufen. In diesem Fall ist eine beliebige Verteilung von w_i gültig. 8f zeigt ein Beispiel einer möglichen Verteilung von w_i.

Es sei darauf hingewiesen, dass in 8a–f die x-Achse der Kurve die vorhandenen N Wahrscheinlichkeitsstufen darstellt, wobei die ganz linke Stufe die wahrscheinlichsten Hauptmotivbereiche darstellt, dazwischen sind monoton fallende Hauptmotivwahrscheinlichkeitswerte angeordnet, während die ganz rechte Stufe die wahrscheinlichsten Hintergrundbereiche darstellt. Das in der Figur verwendete Farbschema ist grün für die Hauptmotivwahrscheinlichkeitsstufen (mit von links nach rechts fallender Hauptmotivwahrscheinlichkeitsstufe), rot für die Hintergrundwahrscheinlichkeit (mit von links nach rechts fallender Hintergrundwahrscheinlichkeit).
Die gesamte Bildähnlichkeit zwischen einem Abfragebild und einem Datenbankbild kann wieder als die gewichtete Summe der Ähnlichkeit jeder der entsprechenden Wahrscheinlichkeitsstufendarstellungen wie folgt berechnet werden:
wobei N für die Zahl der Wahrscheinlichkeitsstufen steht, s_ij für die Ähnlichkeit zwischen der i^ten Wahrscheinlichkeitsstufe des Abfragebildes und der j^ten Wahrscheinlichkeitsstufe eines Datenbankbildes steht und w_ij für das der Ähnlichkeit zuzuordnende Gewicht. Das jedem Paar der einzelnen Wahrscheinlichkeitsstufen zugeordnete Gewicht hängt von der gewünschten Art des Abrufs und dem gewünschten zulässigen Maß an „Nachlässigkeit" bezüglich der Übereinstimmung zwischen benachbarten Wahrscheinlichkeitsstufen ab. Eine Beispielsmenge von Gewichten {w_ij} ist in einem Matrixformat gegeben als
wobei die Gewichte in der Diagonalen ebenso funktionieren wie in Gleichung (6), und wobei die Gewichte abseits der Diagonalen eine „Aufweichung" der Übereinstimmung zwischen benachbarten Wahrscheinlichkeitsstufen ermöglichen, um eine potenzielle Ungenauigkeit in der Wahrscheinlichkeitsstufenpartitionierung zu berücksichtigen, die von dem Hauptmotivermittlungsprozess eingebracht werden könnte.
Nach Berechnung der Ähnlichkeitsmetrik für alle Datenbankbilder können diese gemäß ihrer Ähnlichkeit mit dem Abfragebild sortiert und angezeigt werden. Einschlägige Fachleute werden erkennen, dass auch andere Ähnlichkeitsmaße innerhalb des Umfangs und Geltungsbereichs der Erfindung verwendbar sind. Die Miniaturen der gewählten Bilder können optional abgerufen und in sortierter Folge angezeigt werden.
Der Gegenstand der vorliegenden Erfindung betrifft die digitale Bildinterpretationstechnik, worunter die Technik zu verstehen ist, die ein Digitalbild digital verarbeitet, um menschlich verständlichen Objekten, Attributen oder Bedingungen eine sinnvolle Bedeutung zuzuweisen und dann die in der weiteren Verarbeitung des Digitalbildes erzielten Ergebnisse zu nutzen.
Die vorliegende Erfindung wurde somit mit Bezug auf ein bestimmtes Ausführungsbeispiel für eine bestimmte Anwendung beschrieben. Einschlägige Fachleute, die Zugang zu der vorliegenden Beschreibung haben, werden zusätzliche Abwandlungen, Anwendungen und Ausführungsbeispiele innerhalb des Umfangs und Geltungsbereichs der Erfindung erkennen. Beispielsweise besteht eine mögliche Erweiterung in einem Verfahren zur Bereitstellung einer Wahrscheinlichkeitstabelle, die den Teil der Szene bezeichnet, der nicht zum Hauptmotiv gehört, wobei das Hauptmotiv weiter ableitbar ist und wobei die abgeleiteten Informationen zur Ermittlung der Bildähnlichkeit innerhalb des Umfangs und Geltungsbereichs der Erfindung verwendbar sind.
Die anliegenden Ansprüche schließen daher alle derartigen Anwendungen, Abwandlungen und Ausführungsbeispiele innerhalb des Umfangs und Geltungsbereichs der Erfindung ein.

Claims

Verfahren zum Bestimmen der Bildähnlichkeit, mit folgenden Schritten: Bereitstellen eines ersten Bildes mit einem zugeordneten Satz erster Bildmerkmale, die jeweils einzeln einem Satz von Wahrscheinlichkeitsstufen entsprechen, die stufenweise bewertet werden gemäß der Ähnlichkeit des Hauptmotivs; Bereitstellen eines zweiten Bildes mit einem zugeordneten Satz zweiter Bildmerkmale, die jeweils einzeln einem Satz von Wahrscheinlichkeitsstufen entsprechen, die stufenweise bewertet werden gemäß der Ähnlichkeit des Hauptmotivs; automatisches Erzeugen eines Wahrscheinlichkeitsstufenbildes anhand des zweiten Bildes an jeder der stufenweise bewerteten Wahrscheinlichkeitsstufen, um eine Vielzahl von Wahrscheinlichkeitsstufenbilder bereitzustellen, von denen jedes das zweite Bild ist, maskiert für eine bestimmte Wahrscheinlichkeitsstufe; automatisches Extrahieren eines oder mehrerer Merkmale entsprechend den ersten Bildmerkmalen eines jeden Wahrscheinlichkeitsstufenbildes, um extrahierte Merkmale bereitzustellen; und Vergleichen der extrahierten Merkmale mit entsprechenden ersten Bildmerkmalen an jeder der entsprechenden Wahrscheinlichkeitsstufen und Erhalten eines Maßes für die Bildähnlichkeit durch Kombinieren der Ergebnisse des Vergleichsschritts.
Verfahren nach Anspruch 1, worin der Schritt des Erzeugens die Schritte umfasst: Erzeugen einer kontinuierlich bewerteten Wahrscheinlichkeitstabelle des zweiten Bildes, worin die Tabelle Wahrscheinlichkeitswerte aufweist, die sich gemäß der Ähnlichkeit des Hauptmotivs verändern; Ableiten einer mehrfach bewerteten Wahrscheinlichkeitstabelle von der kontinuierlich bewerteten Wahrscheinlichkeitstabelle, wobei die mehrfach bewertete Wahrscheinlichkeitstabelle dem Satz der stufenweise bewerteten Wahrscheinlichkeitsstufen entsprechende Wahrscheinlichkeitsstufen aufweist; und Maskieren des zweiten Bildes mit der mehrfach bewerteten Wahrscheinlichkeitstabelle, um die Wahrscheinlichkeitsstufenbilder bereitzustellen.
Verfahren nach Anspruch 2, worin der Schritt des Erzeugens die Schritte umfasst: Segmentieren des zweiten Bildes in eine Vielzahl von Bereichen gleichmäßiger Farbe und Textur; Berechnen mindestens eines Strukturmerkmals und/oder eines semantischen Merkmals für jeden Bereich; und Berechnen eines Wahrscheinlichkeitswertes für alle Pixel in jedem Bereich unter Verwendung eines Bayes'schen Netzes, um die Merkmale zu kombinieren.
Verfahren nach Anspruch 1, worin die Anzahl an Wahrscheinlichkeitsstufen größer ist als zwei.
Verfahren nach Anspruch 1, worin mindestens eines der ersten Bildmerkmale eines der Merkmale umfasst: Farbe, Textur und Form.
Verfahren nach Anspruch 1, worin die Wahrscheinlichkeitswerte des Hauptmotivs bestimmt werden durch Segmentieren des Bildes in Bereiche gleichmäßiger Farbe.
Verfahren nach Anspruch 6, worin die Wahrscheinlichkeitswerte des Hauptmotivs bestimmt werden durch Berechnen mindestens eines Strukturmerkmals für jeden Bereich.
Verfahren nach Anspruch 6, worin die Wahrscheinlichkeitswerte des Hauptmotivs bestimmt werden durch Berechnen mindestens eines semantischen Merkmals für jeden Bereich.
Verfahren nach Anspruch 6, worin die Wahrscheinlichkeitswerte des Hauptmotivs bestimmt werden durch Berechnen eines Wahrscheinlichkeitswerts für alle Pixel im Bereich unter Verwendung eines Bayes'schen Netzes, um die Merkmale zu kombinieren.
Verfahren nach Anspruch 1, worin die Wahrscheinlichkeitswerte des Hauptmotivs bestimmt werden durch Segmentieren des Bildes in Bereiche gleichmäßiger Textur.