DE69909635T2 - Gerät und verfahren zur elektronischen bildverbesserung - Google Patents

Gerät und verfahren zur elektronischen bildverbesserung Download PDF

Info

Publication number
DE69909635T2
DE69909635T2 DE69909635T DE69909635T DE69909635T2 DE 69909635 T2 DE69909635 T2 DE 69909635T2 DE 69909635 T DE69909635 T DE 69909635T DE 69909635 T DE69909635 T DE 69909635T DE 69909635 T2 DE69909635 T2 DE 69909635T2
Authority
DE
Germany
Prior art keywords
image
pyramid
images
luminance
chrominance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69909635T
Other languages
English (en)
Other versions
DE69909635D1 (de
Inventor
Luca Bogoni
Wade Michael HANSEN
Peter Burt
James Keith HANNA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sarnoff Corp
Original Assignee
Sarnoff Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sarnoff Corp filed Critical Sarnoff Corp
Publication of DE69909635D1 publication Critical patent/DE69909635D1/de
Application granted granted Critical
Publication of DE69909635T2 publication Critical patent/DE69909635T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6811Motion detection based on the image signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/683Vibration or motion blur correction performed by a processor, e.g. controlling the readout of an image memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Color Television Image Signal Generators (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Color Image Communication Systems (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Systeme und Techniken für das elektronische Verstärken bzw. Verbessern von Bildern.
  • Videosensoren verschiedener Typen verbreiten sich weiterhin sowohl in militärischen/Überwachungsanwendungen als auch hinsichtlich der Anwendungen von Alltags- bzw. Verbraucherelektronik. Vor zehn Jahren sind Videokameras für Normalverbraucher soeben populär geworden. Seit jener Zeit bis heute hat es eine Verbreitung verschiedener Formen von Gebrauchselektronik gegeben, die Videobilder aufzeichnen und wiedergeben kann. Diese Videorecorder zeichnen typischerweise analoge Videodaten auf einem Standardband (wie z. B . auf den 8 mm- und VHS-Formaten) auf und neuere, vollständig digitale Kameras werden zunehmend populärer.
  • Zusätzlich werden digitale Fotokameras immer populärer. Diese Kameras enthalten vergleichsweise standardmäßige Videosensoren, typischerweise dieselben Sensoren, wie sie in den Videokameras verwendet werden, und sie sind dafür ausgelegt, individuelle Videoeinzelbilder zu erfassen und sie für das spätere Laden auf einen PC auf einem Platinenspeicher zu speichern. Während diese Kameras verbreitet bzw. populär sind, haben diejenigen, welche sie benutzen, festgestellt, daß Kameras, die Bilder höherer Qualität gewährleisten, teuer sind, und daß selbst diese Kameras Bilder von enttäuschender Qualität erzeugen, jedenfalls im Vergleich zu Bildern, die mit standardmäßigen Filmkameras unter ähnlichen Bedingungen aufgenommen wurden.
  • Für den Hochleistungs- und Militärmarkt ist eine große Vielfalt von Videosensoren entwickelt worden. Diese Sensoren umfassen standardmäßige Bildsichtgeräte (beispielsweise Fernsehen), Infrarot- (IR-) Sensoren, die Wärme ebenso wie Licht sichtbarer als auch nicht sichtbarer Wellenlängen erfassen können, verstärkte Nachtsichtsensoren, welche die in einer Szene zu sehende Lichtmenge verstärken, und exotischere Sensoren, die Ausstrahlungen in verschiedenen anderen Wellenlängen erfassen. Verschiedene Nachverarbeitungsschritte werden verwendet, um die Leistungsfähigkeit dieser Sensoren zu verbessern.
  • Die US-A-4,661,986 offenbart ein Verfahren und eine entsprechende Vorrichtung zum Verarbeiten einer Mehrzahl monochromatischer Bilder einer Szene, um ein Einzelbild bereitzustellen, das eine verbesserte Tiefenschärfe hat. In einer Ausführungsform werden zwei monochromatische Bilder A und B verarbeitet.
  • Die beiden monochromatischen Bilder werden jeweils unter Verwendung einer pyramidenartigen Bildanalysetechnik analysiert in N getrennten räumlichen Frequenzbändern, die ein niednges Auflösungsniveau (gn) und eine Mehrzahl höherer Niveaus (Lm) haben, wobei m = 0 bis n-1, und die jeweils einen Satz von Pixeln aufweisen. Entsprechende Niveaus, beispielsweise LoA, LoB von jedem Bild A und B werden pixelweise miteinander verglichen und die Pixel, die die größere Amplitude haben, werden ausgewählt. Dies verschmilzt die beiden Bilder in einer Pyramidenwiedergabe. Das verschmolzene Bild wird aus der Pyramidenwiedergabe rekonstruiert.
  • In einer anderen Ausführungsform sind die Bilder polychromatisch. Die Bilder werden in drei primäre Farbsignale oder in zu primären Farbsignalen komplementäre Signale aufgespalten. Jedes Farbsignal wird auf dieselbe Art und Weise verarbeitet wie ein monochromatisches Signal.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Das generelle Thema der vorliegenden Erfindung ist die Verbesserung der Qualität digitaler Abbildungen, entweder in Videoform oder als stehende Bilder, und zwar unter Venwendung von digitalen Bildverarbeitungstechniken, die mit mehreren Bildem arbeiten, um ein einzelnes verbessertes Bild zu erzeugen. Es gibt verschiedene Vorteile bei der Verwendung dieser Verfahren, einschließlich der Fähigkeit, die Leistungsfähigkeit irgendeines Videosenders zu erhöhen, unabhängig von seinem Aufbau, und Verbesserungen bereitzustellen, die ansonsten unmöglich zu erreichen sind (wie z. B. Kombinieren mehrerer Bilder, um die Tiefenschärfe des Sensors zu erweitern).
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Kombinieren einer Mehrzahl von Farbbildern einer Szene bereitgestellt, um ein verbessertes Farbbild der Szene bereitzustellen, wobei das Verfahren die Schritte aufweist: Empfangen der Mehrzahl von Bildern (A, B) als getrennte Luminanz- und Chrominanz-Bilddaten, Filtern der Luminanz-Bilddaten, welche die Mehrzahl von Bildern wiedergeben, um eine entsprechende Mehrzahl von Luminanz-Pyramiden zu erzeugen, wobei jede Luminanz-Pyramide ein niedriges Auflösungsniveau und eine Mehrzahl höherer Auflösungsniveaus hat, Filtern der Chrominanz-Bilddaten, welche der Mehrzahl von Bildern entsprechen, um eine entsprechende Mehrzahl von Chrominanz-Pyramiden zu erzeugen, wobei jede Chrominanz-Pyramide ein niedriges Auflösungsniveau und eine Mehrzahl höherer Auflösungsniveaus hat, zusätzliches Erzeugen einer Prägnanz-Pyramide, welche die hervorstechenden Eigenschaften eines Bildes anzeigen, wobei jede Prägnanz-Pyramide eine Funktion (σ) einer Wiedergabe des Bildes in einem räumlichen Maßstab ist, Kombinieren von Merkmalen der Luminanz-Pyramiden und der Chrominanz-Pyramiden der miteinander zu kombinierenden Bilder auf allen Pyramidenniveaus mit Ausnahme des Niveaus niedriger Auflösung, gemäß einer Mapping-Funktion, die eine Funktion (δ) der Prägnanz-Pyramiden der Bilder ist, die miteinander kombiniert werden sollen, um eine einzelne, verschmolzene partielle Luminanz-Pyramide und eine einzelne verschmolzene partielle Chrominanz-Pyramide zu erzeugen, Verarbeiten der Niveaus niedriger Auflösung für die Mehrzahl der Luminanz-Pyramiden, um eine verschmolzene Luminanz niedriger Auflösung zu erzeugen, Verarbeiten der Niveaus niedriger Auflösung der Mehrzahl von Chrominanz-Pyramiden, um eine verschmolzene Chrominanz auf niedrigem Auflösungsniveau zu erzeugen, Kombinieren des verschmolzenen Luminanz-Niveaus niedriger Auflösung mit der verschmolzenen Luminanz-Teilpyramide, um eine verschmolzene Luminanz-Pyramide zu bilden, und Kombinieren des verschmolzenen Chrominanz-Niveaus niedriger Auflösung mit der verschmolzenen teilweisen Chrominanz-Pyramide, um eine verschmolzene Chrominanz-Pyramide zu bilden, und Rekonstruieren veistärkter bzw. verbesserter Luminanz- und Chrominanz-Bilder aus den entsprechenden verschmolzenen Luminanz- und Chrominanz-Pyramiden, und Kombinieren der verstärkten bzw. verbesserten Luminanz- und Chrominanz-Bilder, um das verbesserte Bild der Szene zu bilden.
  • In einer Ausführungsform der vorliegenden Erfindung ist jede Prägnanz-Pyramide eine Funktion einer Luminanz-Pyramide des Bildes.
  • In einer anderen Ausführungsform der vorliegenden Erfindung hat das verbesserte Farbbild eine verbesserte Schärfentiefe im Vergleich zu irgendeinem aus der Mehrzahl von Farbbildern, wobei der Schritt des Filterns der Luminanz-Bilddaten, welche die Mehrzahl von Bildern repräsentieren, eine entsprechende Mehrzahl Laplacescher Pyramiden erzeugt, wobei jede Laplacesche Pyramide ein Gauß-gefiltertes niedriges Auflösungsniveau und eine Mehrzahl von Laplace-gefilterten höheren Auflösungsniveaus hat, der Schritt des Filterns der Chrominanz-Bilddaten, welche die Mehrzahl von Bildern repräsentieren, eine entsprechende Mehrzahl von Gaußschen Pyramiden erzeugt, wobei jede Gaußsche Pyramide ein Gauß-gefiltertes niedriges Auflösungsniveau und eine Mehrzahl von Gauß-gefilterten hohen Auflösungsniveaus hat, der Erzeugungsschritt jede Prägnanz-Pyramide als eine Funktion der Laplaceschen Luminanz-Pyramiden erzeugt, der Schritt des Kombinierens Merkmale der Laplace-gefilterten höheren Auflösungsniveaus der Bilder gemäß einer Maximalgrößenfunktion kombiniert, um die teilweise Luminanz-Pyramide und die teilweise Chrominanz-Pyramide zu erzeugen, wobei der Schritt des Verarbeitens der niedrigen Auflösungsniveaus der Luminanz-Pyramiden das Anlegen einer Funktion maximaler Größe an entsprechenden Werten des niedrigen Auflösungsniveaus aufweist, um das verschmolzene Luminanz-Niveau niedriger Auflösung zu bilden, und der Schritt des Verarbeitens der Niveaus niedriger Auflösung der Chrominanz-Pyramiden das Berechnen entsprechender Werte des Niveaus niedriger Auflösung umfaßt, um das verschmolzene Chromianz-Niveau niedriger Auflösung zu bilden.
  • Diese weitere Ausführungsform betrifft das Verbessern der Tiefenschärfe von Farbbildern. Viele elektronische Sensoren werden mit Optiken verwendet, die nur eine begrenzte Tiefenschärfe bereitstellen. Dies ist besonders zu bemerken, wenn der Sensor ein relativ breites Gesichtsfeld hat und wenn der Benutzer in der Lage sein möchte, fokussierte Bilder sowohl von Vordergrund- als auch von Hintergrund-Objekten aufzunehmen. Standardoptiken unterstützen keine erweiterten Tiefenschärfen mit Filmkameras oder mit digitalen Sensoren bei schlechten Lichtbedingungen. Dies ist eine Einschränkung der Physik, die sich auf das Nadelloch-Modell von Sensoren bezieht. Ein Beispiel dieser Ausführungsform liefert ein Einzelbild mit einer großen Tiefenschärfe, indem eine Mehrzahl von Bildern in unterschiedlichen Brennebenen aufgenommen wird, jeweils mit derselben Apertur und denselben Einstellungen der zeitlichen Integration. Fokussierte Bereiche der verschiedenen Bilder werden miteinander verschmolzen, um das einzelne Ausgangsbild zu erzeugen. Dieser Verschmelzungsprozeß beruht sowohl auf dem Niveau der Einzelheiten in den Bildern als auch auf der relativen Sättigung der Farbpixel in den verschiedenen Bildern.
  • In einer weiteren Ausführungsform der vorliegenden Erfindung hat das verbesserte Farbbild einen verbesserten Dynamikbereich im Vergleich zu irgendeinem aus der Vielzahl von Farbbildern, wobei der Schritt des Filterns der Luminanz-Daten, welche die Mehrzahl von Bildern repräsentieren, eine entsprechende Mehrzahl Laplaceschen Pyramiden erzeugt, wobei jede Laplacesche Pyramide ein Gauß-gefiltertes Niveau niedriger Auflösung und eine Mehrzahl von Laplace-gefilterten Niveaus höherer Auflösung hat, wobei der Schritt des Filterns der Chromianz-Bilddaten, welche die Mehr zahl von Bildern repräsentieren, eine entsprechende Mehrzahl Gaußscher Pyramiden produziert, wobei jede Gaußsche Pyramide ein nach Gauß gefiltertes Niveau niedriger Auflösung und eine Mehrzahl von Gauß-gefilterten höheren Auflösungsniveaus hat, wobei der Erzeugungsschritt jede Prägnanz-Pyramide als eine Funktion der Laplaceschen Luminanz-Pyramide erzeugt, wobei der Schritt des Kombinierens (918) Merkmale der Laplace-gefilterten höheren Auflösungsniveaus der Bilder entsprechend einer Maximalgrößenfunktion kombiniert, um die partielle Luminanz-Pyramide und die partielle Chrominanz-Pyramide zu erzeugen, wobei der Schritt des Verarbeitens der niedrigen Auflösungsniveaus der Chrominanz-Pyramiden die Schritte des Erzeugens einer Durchschnittsmaske umfaßt, welche eine Mehrzahl von Positionen hat, die einer entsprechenden Mehrzahl von Stellen in jedem der Chrominanz-Niveaus niedriger Auflösung entsprechen, wobei jede Stelle in der Durchschnittsmaske einem entsprechenden Wert in einem der Mehrzahl von Chrominanz-Niveaus niedriger Auflösung entspricht, wobei dieser Wert ein Durchschnittswert aller entsprechenden Werte in den Chrominanz-Niveaus niedriger Auflösung an der Stelle ist, und Verschmelzen der Mehrzahl von Chrominanz-Niveaus niedriger Auflösung entsprechend der Durchschnittsmaske, und wobei der Schritt des Verarbeitens der niedrigen Auflösungsniveaus der Luminanz-Pyramiden den Schritt des Verschmelzens der Mehrzahl von Luminanz-Niveaus niedriger Auflösung gemäß der Durchschnittsmaske umfaßt.
  • Diese weitere Ausführungsform betrifft das Verbessern des Dynamikbereiches von Farbbildern. Viele Videosensoren und Standbildsensoren können keinen Dynamikbereich bereitstellen, der in vorteilhafter Weise mit der Leistungsfähigkeit von Filmen oder des menschlichen Sehsinns vergleichbar ist. Dies führt zu einer Sättigung gewisser Bereiche der Szene. Diese Sättigung erscheint entweder als Schleierbildung (d. h. Bereiche des Bildes, die zu hell erscheinen) oder dem Fehlen von Bilddetails in dunklen Bereichen. Eine Folge von Bildern, die beispielsweise mit unterschiedlichen Einstellungen der Apertur oder der zeitlichen Integration aufgenommen werden, kann zu einem Einzelbild kombiniert werden, welches einen besseren Dynamikbereich hat als irgendeines der einzelnen Bilder. Die Auswahl, welche Bereiche der Bilder miteinander zu kombinieren sind, beruht auf dem Niveau von Luminanz-Einzelheiten in jedem der Bilder, während für die Farbpixel ein Durchschnitt über die kombinierten Bilder gebildet wird.
  • Die Erfindung stellt auch einen Träger bereit, der ein Computerprogramm umfaßt, welches, wenn es auf einem Computer läuft, eine Mehrzahl von Farbbildern gemäß einem Verfahren der vorliegenden Erfindung verarbeitet. Die Erfindung stellt auch ein Computerprogramm bereit, welches, wenn es auf einem Computer läuft, eine Mehrzahl von Farbbildern gemäß einem Verfahren der vorliegenden Erfindung verarbeitet.
  • Die Vorrichtung stellt auch eine Vorrichtung zum Verarbeiten einer Mehrzahl von Farbbildern einer Szene bereit, um ein verbessertes Bild der Szene bereitzustellen, welche aufweist: eine Quelle von Farbbildern als getrennte Luminanz- und Chrominanz-Bilddaten, Einrichtungen, die dafür ausgelegt sind, die Luminanz-Bilddaten zu verarbeiten, welche die Mehrzahl von Bildern repräsentieren, um eine entsprechende Mehrzahl von Luminanz-Pyramiden zu erzeugen, wobei jede Luminanz-Pyramide ein niedriges Auflösungsniveau und eine Mehrzahl höherer Auflösungsniveaus hat, Ein richtungen dafür ausgelegt sind, die Chrominanz-Bilddaten zu verarbeiten, welche die Mehrzahl von Bildern repräsentieren, um eine entsprechende Mehrzahl von Chrominanz-Pyramiden zu erzeugen, wobei jede Chrominanz-Pyramide ein niedriges Auflösungsniveau und eine Mehrzahl höherer Auflösungsniveaus hat, Einrchtungen, die dafür ausgelegt sind, um zusätzlich für jedes Bild zumindest eine Prägnanz-Pyramide zu erzeugen, welche die hervorstechenden Eigenschaften des Bildes anzeigen, wobei jede Prägnanz-Pyramide eine Funktion einer Wiedergabe des Bildes im räumlichen Maßstab ist, Einrichtungen, die dafür ausgelegt sind, Merkmale von Luminanz-Pyramiden und Chrominanz-Pyramiden miteinander zu kombinieren, und zwar der Bilder, die auf allen Pyramidenniveaus miteinander zu kombinieren sind mit Ausnahme des niedrigen Auflösungsniveaus, entsprechend einer Abbildungsfunktion, die eine Funktion der Prägnanz-Pyramiden der Bilder ist, die miteinander kombiniert werden sollen, um eine einzige, verschmolzene Luminanz-Teilpyramide und eine einzelne, verschmolzene Chrominanz-Teilpyramide zu erzeugen, Einrichtungen, welche die niedrigen Auflösungsniveaus der Mehrzahl von Luminanz-Pyramiden verarbeiten, um ein verschmolzenes Luminanz-Niveau niedriger Auflösung zu erzeugen, Einrichtungen, welche die niedrigen Auflösungsniveaus der Mehrzahl von Chrominanz-Pyramiden verarbeiten, um ein verschmolzenes Chrominanz-Niveau niedriger Auflösung zu erzeugen, Einrichtungen, welche die verschmolzenen Luminanz-Niveaus niedriger Auflösung mit der verschmolzenen Luminanz-Teilpyramide kombinieren, um eine verschmolzene Luminanz-Pyramide zu bilden, und welche das verschmolzene Chrominanz-Niveau niedriger Auflösung mit der Chrominanz-Teilpyramide kombinieren, um eine verschmolzene Chrominanz-Pyramide zu bilden, und Einrichtungen, welche verbesserte Luminanzund Chrominanz-Bilder aus den jeweiligen verschmolzenen Luminanz- und Chrominanz-Pyramiden rekonstruieren und die verbesserten Luminanz- und Chrominanz-Bilder miteinander kombinieren, um das verbesserte Bild der Szene zu bilden.
  • KURZBESCHREIBUNG DER FIGUREN
  • 1 (Stand der Technik) ist ein Blockdiagramm einer konventionellen digitalen Standbildkamera.
  • 2 ist ein Blockdiagramm einer digitalen Standbildkamera gemäß der vorliegenden Erfindung.
  • 3 ist ein Blockdiagramm eines beispielhaften Schaltkreises, welcher als der in 2 dargestellte Bildprozessor verwendbar ist.
  • 4 ist ein Blockdiagramm einer beispielhaften Schaltung, welche für die Verwendung als eine der in 3 dargestellten Videoverarbeitungshauptplatinen geeignet ist.
  • 5 ist ein Blockdiagramm einer Tochterplatine mit digitalisierender Bildverarbeitung, welche für die Verwendung mit dem in 2 dargestellten Bildprozessor geeignet ist.
  • 6 ist ein Blockdiagramm einer Tochterplatine zur Korrelationsvideoverarbeitung, welche für die Verwendung mit dem in 2 dargestellten Bildprozessor geeignet ist.
  • 7 ist ein Blockdiagramm einer Tochterplatine zur Videoverarbeitung durch Verzerrung, welche für die Verwendung mit dem in 2 dargestellten Bildprozessor geeignet ist.
  • 8 ist ein Flußdiagramm für einen Satz von Prozessen gemäß der Erfindung, die unter Verwendung des in 2 dargestellten Bildprozessors implementiert werden können.
  • 9 ist ein Flußdiagramm, welches für die Beschreibung einer ersten Ausführungsform der Erfindung zweckmäßig ist.
  • 10 ist ein Flußdiagramm, welches für die Beschreibung einer zweiten Ausführungsform der Erfindung zweckmäßig ist.
  • 11 und 12 sind Funktionsblockdiagramme, die für die Beschreibung einer dritten Bildverarbeitungstechnik zweckmäßig sind.
  • 13 ist ein Flußdiagramm, welches für die Beschreibung der dritten Technik zweckmäßig ist.
  • 14 ist ein Flußdiagramm, welches für die Beschreibung einer alternativen Implementierung der dritten Technik zweckmäßig ist.
  • 15 ist ein Flußdiagramm, welches für die Beschreibung einer vierten Bildverarbeitungstechnik zweckmäßig ist.
  • 16 ist ein Flußdiagramm, welches für die Beschreibung einer fünften Bildverarbeitungstechnik zweckmäßig ist.
  • 17 ist ein Flußdiagramm, welches für die Beschreibung einer alternativen Implementierung der fünften Technik zweckmäßig ist.
  • 18 ist ein Flußdiagramm, welches für die Beschreibung einer sechsten Bildverarbeitungstechnik zweckmäßig ist, die in einer Form einer Ausführungsform der vorliegenden Erfindung darstellt.
  • 19 ist ein Flußdiagramm, welches für die Beschreibung einer ersten alternativen Implementierung der sechsten Technik zweckmäßig ist.
  • 20 ist ein Flußdiagramm, welches für die Beschreibung einer zweiten alternativen Implementierung der sechsten Technik zweckmäßig ist.
  • 21 ist ein Flußdiagramm, welches für die Beschreibung einer siebten Ausführungsform der Erfindung zweckmäßig ist.
  • GENAUE BESCHREIBUNG DER BEISPIELHAFTEN AUSFÜHRUNGSFORMEN
  • Es gibt umfangreiche Arbeiten, die sich mit der Verbesserung und Verarbeitung von Videodaten von unterschiedlichen Sensortypen befassen. Diese Techniken können beschrieben werden als solche, die sich mit den verschiedenen Verfahren zur Verbesserung befassen, wie sie oben erwähnt wurden.
  • Auf den Märkten der digitalen Standbild- bzw. Fotokameras und Videokameras gibt es einen weit verbreiteten Gebrauch von Verfahren zum Erzeugen von hochauflösenden Farbvideobildern von Bayer-codierten Videosensoren. Diese Farbinterpolationstechniken sind wohlbekannt und eine große Vielfalt dieser Methoden ist in der Literatur beschrieben. Im Gegensatz zu Farbinterpolation werden jedoch nur wenige Methoden für die Verbesserung von Videosequenzen verwendet.
  • Auf dem Gebiet der Sensorphysik an sich und der Sensortechnologie ist bereits eine Menge Arbeit geleistet worden. Elektronische Verfahren, wie z. B. intensivierte Abbildung, CMOS- und CCD-Abbildungstechniken und zahlreiche weitere Formen der Sensortechnologie sind entwickelt worden. Einige dieser Technologien werden unten erwähnt, jedoch sind im allgemeinen alle diese Technologien entwickelt worden, um den Sensor selbst durch Eingriff auf Sensorebene zu verbessern und nicht in Form einer nachträglichen Verarbeitung.
  • Eine konventionelle digitale Standbild- bzw. Fotokamera ist in 1 dargestellt. Diese Kamera weist ein Linsensystem 110 auf, das ein Bild auf einen CCD-Abbilder 112 fokussiert. Der CCD-Abbilder 112 fängt das Bild als getrennte Luminanz- (Y) und Chromianz- (U und V) Komponenten ein und digitalisiert sie. Diese Komponenten werden dann in einem Speicher 114 für ein späteres Laden auf einen Computer gespeichert. Die Brennweite und die Apertur der Linse 110, die Integrationszeit der Abbildungseinrichtung 112 und die Übertragung von Daten von der Abbildungseinrichtung 112 zu dem Speicher 114 wird gesteuert durch einen Steuerprozessor 116, der Benutzereinstellungen (nicht dargestellt) in Steuersignale für die verschiedenen Kamerakomponenten übersetzt.
  • 2 ist ein Blockdiagramm einer digitalen Fotokamera (oder digitalen Videokamera) gemäß der vorliegenden Erfindung. Diese Kamera weist ebenfalls eine Linse 110, eine Abbildungseinrichtung 112 und einen Steuerprozessor 116 auf. Die Kamera umfaßt weiterhin einen Bildprozessor 118 und, falls der Prozessor 118 keinen ausreichenden inneren Speicher enthält, einen optionalen Speicher 120 (schemenhaft dargestellt). Der Steuerprozessor der in 2 dargestellten Kamera steuert das Linsensystem 110 und die Abbildungseinrichtung 112, so daß sie in dichter Folge nacheinander mehrere Bilder einfangen. Diese Bilder werden durch den Bildprozessor verarbeitet, um ein einzelnes verbessertes Bild zu erzeugen. Die Abbildungseinrichtung 112 kann eine konventionelle CCD-Videoabbildungseinrichtung sein, die 30 Einzelbilder pro Sekunde aufnehmen kann, oder es kann eine schnelle Abbildungseinrichtung sein, die 300 Einzelbilder pro Sekunde aufnehmen kann. Bei Verwendung dieses zweiten Typs einer Abbildungseinrichtung können die erfindungsgemäßen Verfahren, die nachstehend beschrieben werden, verwendet werden, um individuelle Bilder einer verbesserten Videosequenz zu erzeugen.
  • 3 zeigt ein Realzeit-Videoverarbeitungssystem (VPS), welches für die Verwendung als Bildprozessor 118, wie er in 2 dargestellt ist, geeignet ist. Die Hauptkomponenten des VPS sind:
  • Eine Prozessorhauptplatine (PM) 122, die Vielzweck-Mikroprozessoren oder digitale Signalprozessoren (DSPs) 124 für die Steuerung der zugehörigen Videohardware bereitstellt, welche Bildanalyseoperationen ausführen, die nicht in einfacher Weise in die Videohardware abgebildet werden können, und welche Kommunikationen mit anderen Komponenten ermöglichen, die nicht integraler Teil des VPS-Systems sind.
  • Eine oder mehrere Hauptplatinen 126 mit Videoprozessoren (VPMs), welche die grundlegenden Videoverarbeitungskomponenten innerhalb des VPS bilden. Jede VPM 126 enthält zugehörige, parallel in Pipeline arbeitende Videohardware, die in der Lage ist, Operationen mit Strömen von Videodaten mit einer konstanten Geschwindigkeit bzw. Rate (basierend auf einem globalen Pixel takt) durchzuführen. Wie in 3 dargestellt, unterstützt die VPM 20 auch die Ergänzung durch eine oder zwei Tochterplatinen, die Videoverarbeitungstochterplatinen (VPDs) 128 für spezielle Bildgewinnung, Anzeige- und Verarbeitungsgeräte genannt werden. Wie dargestellt, können innerhalb eines einzelnen VPS-Systems mehrere VPMs 126 vorgesehen sein, die jeweils ihren eigenen Satz von VPDs 128 haben.
  • Ein globaler Videobus (GVB) 132 definiert eine Videogrundebene, welche ermöglicht, daß Videoinformation zwischen den VPMs 126 des VPS bei beispielsweise 33 MBytes pro Sekunde übertragen wird, und auch für Videodaten, die zu und von den Mikroprozessoren 124 auf der PM 122 übertragen werden sollen.
  • Ein globaler Steuerbus (GCB) 130 überträgt Steuer- und Statussignale zwischen der PM 122, den VPMs 126 und dem GVB 130 des VPS. Zugriff durch die PM 122 für die Steuerung von Registern in den Bestimmungsplatinen innerhalb des VPS wird über den GCB 130 vermittelt. Typischerweise werden über diesen GCB 130 keine Videotransaktionen ausgeführt.
  • Die PM 122 funktioniert als der Mikroprozessorkern des VPS. Zwei Mikroprozessoren 124 werden tatsächlich in der PM 122 verwendet, wobei die Möglichkeit besteht, einen oder zwei weitere Mikroprozessoren 124 als Komponenten von Tochterplatinen hinzuzufügen. Die primäre Funktion der PM 10 besteht darin, die Befehle und die Steuerung der Videoverarbeitungsvorgänge, die durch die VPMs 126 und ihre zugehörigen VPDs 128 ausgeführt werden, zu gewährleisten. Videoverarbeitungsvorgänge innerhalb des VPS sind unter Verwendung von Steuerregistern in der Videohardware ausgelegt, wobei jede programmierte Operation gestartet wird, indem ein Freigabesignal vorgebracht wird, welches den Beginn der Ausführung dieser Operation definiert. Diese Steuerregister sind in den Speicherraum der Mikroprozessoren 124 abgebildet. Eine C-aufrufbare Hardware-Steuerbibliothek auf hohem Niveau, die auf einem oder mehreren der Mikroprozessoren 124 geladen ist, wird verwendet, um die Koordinierung der Videohardware zu ermöglichen. Zusätzlich zu der Steuerfunktion stellt die PM 122 Bildverarbeitungsfähigkeiten bereit, die unter Verwendung der verfügbaren zugeordneten Hardware nicht effizienter durchgeführt werden können.
  • Die VPMs 126 sind für die Videoverarbeitung bestimmte Platinen. Die gesamte Videohardware in dem VPS arbeitet mit Videoströmen in einer parallelen Pipelineverarbeitung. Dies bedeutet, daß Videodaten aus Einzelbildspeichern pixelweise ausgelesen werden, wobei geeignete Zeittaktsignale die aktive Videoinformation umrahmen. Wenn diese Videodaten durch das System laufen, werden sie durch die verschiedenen Verarbeitungseinheiten auf der VPM 126 verarbeitet. Alle Verarbeitungskomponenten auf der VPM 126 werden so ausgestaltet, daß sie innerhalb dieser Durchlaufarchitektur für die Datenverarbeitung arbeiten. Jede Verarbeitungseinheit fügt einen festen Betrag an Pipelineverzögerung in die Verarbeitung ein, hält jedoch den Datendurchsatz des Systems aufrecht. Demnach ist die Länge an Zeit für die Durchführung einer Operation mit einem Videoeinzelbild immer festgelegt, da ein fester Betrag an Pipelineverzögerung vorliegt, welcher von den durchgeführten Operationen abhängt. Die Leitung von Videodaten durch das System wird durch Verwendung eines digitalen Kreuzschalters in jeder VPM 126 durchgeführt. Der Schalter ermöglicht es, daß Videodaten von einem Eingangsanschluß zu der VPM 126 oder von dem Ausgangsan schluß oder irgendeinem Verarbeitungselement auf der VPM 126 zu einem Ausgangsanschluß der VPM oder zu dem Eingangsanschluß irgendeines Verarbeitungselements auf dem VPM geleitet werden. Der Kreuzschalter ermöglicht auch, daß Videodaten ohne Nachteile bzw. ohne Verluste von einer Quelle auf mehrere Zielorte aufgefächert werden. Alle Hardwarevorgänge, einschließlich der Leitung über den Kreuzschalter, werden definiert durch Programmierung der auf Speicher abgebildeten Steuerregister auf der VPM 126. Jede Verarbeitungseinrichtung, Kreuzpunktverbindung und Speichereinrichtung hat einen Satz von Registern (nicht dargestellt), die so gehandhabt werden, daß sie spezielle Vorgänge definieren. Die Mikroprozessoren 124 werden verwendet, um diese Steuerregister einzustellen und den Beginn der Videovorgänge freizugeben.
  • Der globale Videobus (GVB) 132 leitet Videodaten zwischen den VPS-Systemplatinen. Videodaten können zwischen Paaren von VPMs 126 und zwischen jeder VPM 126 und der PM 122 geleitet werden. Der GVB 132 kann zugewiesene, in Hardware festgelegte Datenkanäle zwischen den VPS-Systemplatinen mit einer festen Topologie bereitstellen. Alternativ kann der GVB 132 aktive Leitungsfähigkeiten über einen sekundären Kreuzschalter enthalten, der direkt auf der aktiven Grundebene des VPS implementiert ist.
  • Der GCB 130 verbindet die PM 122 mit den VPS-Systemplatinen. Steuerregisterzugriffe durch die Mikroprozessoren 124 der PM werden unter Verwendung von GCB 130 ausgeführt. GCB 130 kann irgendein standardmäßiger Adreß- und Datenbus sein, der von den meisten Arten von Mikroprozessoren verwendet wird.
  • 4 zeigt eine beispielhafte Konfiguration für die VPM 126. Die VPM 20 stellt grundlegende Videoverarbeitungsfunktionen für das VPS bereit. Jede beispielhafte VPM 126 kann die folgenden Komponenten enthalten:
  • Einen nicht blockierenden Kreuzschalter 202 mit 39 × 39 Kanälen, 10 Bits pro Kanal, welcher 8 Bits von Videodaten und 2 Bits Zeittaktinformation für jedes Pixel von über den Bus des Kreuzschalters übertragenen Videodaten repräsentiert.
  • Vier Einzelbildspeicher FS1-FS4 (204210) mit 1K × 2K Pixeln. Diese Einzelbildspeicher 204210 weisen drei Anschlüsse auf, welche das Lesen von Videodaten und das Speichern von Videodaten gleichzeitig mit voller Geschwindigkeit erlauben. Ein dritter Anschluß mit wahlweisem Zugriff ist ebenfalls vorgesehen, um einen Mikroprozessorzugriff auf die Einzelbildspeicher zu richten.
  • Vier Module 212218 für die Pyramidenerzeugung. Diese Pyramidenmodule 212218 sind implementiert unter Verwendung eines PYR-2-Filter-ASIC des in den US-Patenten Nr. 5,359,674 und der US-Patentanmeldung mit der Seriennr. 08/838,096 (US-A-5,963,675) beschriebenen Typs. Jedes Pyramidenverarbeitungsmodul 218 ist einer 8-Bit-Nachschlagetabelle (LUT) 220226 für punktweise Bildtransformationen zugeordnet. Jedes Paar von ASICs ist so ausgestaltet, daß sie miteinander kombiniert werden können, um Pyramidenoperationen mit 16-Bit-Datenströmen durchzuführen.
  • Eine konfigurierbare ALU (CALU) 228. Die CALU 228 ermöglicht, daß mit einem Paar von Bildern punktweise Operationen durchgeführt werden. Die CALU 228 umfaßt einen Zeitkompensierer und eine programmierbare Bildverzögerung 230 an ihrem Ausgang, für eine automatische Zeit taktausrichtung, gefolgt von einer (16:16-) Nachschlagetabelle (LUT) von einem 16-Bit-Eingang zu einem 16-Bit-Ausgang und einem 32-Bit-Akkumulator.
  • Eine programmierbare ALU (PALU) 232. Die PALU 232 wird verwendet für Mehrfachbildoperationen. Die PALU 232 besteht aus einem wiederkonfigurierbaren, feldprogrammierbaren Gatearray (FPGA) mit bis zu 16 MBytes DRAM. Sie unterstützt vier Videoeingänge und zwei Videoausgänge. Eine genaue Beschreibung der PALU 232 wird in der US-Patentanmeldung Nr. 09/148,661 gegeben, die unter dem Titel "DIGITAL SIGNAL PROCESSING CIRCUITRY HAVING INTEGRATED TIMING INFORMATION" am 4. September 1998 eingereicht wurde und demselben Anmelder gehört wie die vorliegende Anmeldung.
  • Zwei VPD-Positionen 234 und 236 werden verwendet für die Installation von Tochterplatinenkomponenten, um die VPS für unterschiedliche Anwendungen speziell auszubilden. Vier unterschiedliche VPDs werden nachstehend genauer beschrieben. Die beispielhaften VPMs 122, GVB 132 und VPDs 128 sind mit einem einzigen systemweiten Taktsignal synchron.
  • Die VPM 20 verwendet standardisierte Videodatenformate für Videoübertragungen zwischen VPMs 20, Videospeichermodulen, dem GVB und dem PM 10. Dieses Videoformat besteht aus 8 Bits an Daten pro Pixel, zuzüglich zweier Zeittaktsignale, welche die aktiven Videodaten einrahmen, indem sie Bereiche von horizontalen (HA) und vertikalen (VA) aktiven Daten anzeigen. Es gibt ein festes Leerzeichenintervall zwischen jeder aktiven Zeile in dem Bild. Diese Leerzeichendauer wird definiert, indem HA weggenommen wird (low), und VA vorgebracht wird (high). Es können auch Leerperioden am Beginn und Ende jedes Bildes vorgesehen sein. Alle Videodaten sind synchron zu dem VPS-Systemtakt.
  • Die im parallelen Pipelinebetrieb arbeitende Hardware innerhalb des VPS verwendet Videorahmensignale mit den Daten, um Bereiche aktiver Abbildungen und Leerzeichen für die Videodaten zu umreißen. Diese Information ist, wie oben erwähnt, hilfreich bei der Vereinfachung von Videogeräten innerhalb des VPS und macht diese Geräte durch Softwaresteuerung einfach programmierbar. Ein anderer kritischer Aspekt des VPS ist die Bereitstellung synchroner Starts für Videoverarbeitungsvorgänge. Es ist zwingend, daß der Videozeittakt für mehrere Videopfade synchron gestartet wird, um sicherzustellen, daß der Videozeittakt mit einem bekannten Anfangszustand beginnt. Ohne diese Sicherheit muß die Videohardware immer eine Zeitkompensierung durchführen, wenn Vorgänge auf mehreren Strömen ausgeführt werden, da die anfänglichen Unterschiede im Zeittakt von mehreren Kanälen (auch als Zeitverschiebung bzw. zeitliche Schieflage zwischen den Kanälen bezeichnet) unbekannt sind. Ein gemeinsames Steuersignal, welches als RD START bezeichnet wird, ist innerhalb des VPS vorgesehen, um synchrone Starts für Videolesevorgänge von Videoquellgeräten bereitzustellen. Wenn RD START vorgebracht wird (durch ein Schreiben in ein Register unter Mikroprozessorsteuerung), werden alle zuvor freigegebenen Videoquelleinrichtungen in synchroner Weise mit dem Auslesen beginnen. Dies liefert dem Programmierer einen bekannten Anfangszustand für den Videozeittakt, welcher notwendig ist für die Vereinfachung der Videoablaufanalyse für die nachfolgende Verarbeitung. In einer bevorzugten Ausführungsform wird das RD START-Signal auf einem als solchem bezeichneten "Master"-VPM 20 erzeugt (in einem System mit mehr als einem VPM) und von allen VPMs 20 synchron empfangen, einschließlich des VPM-Masters, und aller VPDs in dem VPS. Die Verwendung eines Master-VPM 20 hindert das VPS nicht daran, mehrere "Master" mit mehr als einem unabhängigen RD START zu verwenden. Jedes RD START kann von einer anderen Quelle über einen ausgewählten RD START-Multiplexer gesteuert werden. Mehrere RD STARTs ermöglichen, daß asynchrone unabhängige Videooperationen ausgeführt werden.
  • Die CALU 228 ist unter Verwendung eines Xilinx XC4010 FPGA oder eines Xilinx XC4028 als CALU-Steuerung mit zweifachen FIFO-Puffern 230 an ihrem Eingang und einer 512K × 16-SRAM-Bank implementiert. Die Eingangs-FIFOs 230 sind durch Steuerregister in der CALU 228 programmierbar, um sowohl irgendwelche Zeitverschiebungen zwischen den beiden Videoeingangspfaden automatisch zu kompensieren als auch eine festgelegte, programmierbare Verzögerung zwischen den beiden Bildern bereitzustellen.
  • Die automatische Zeittaktkompensierung kann auch in der PALU 232 implementiert werden, da diese jedoch keine ausdrücklichen Speicherbestandteile (FIFOs) außerhalb des Chips hat, muß sie interne Ressourcen verwenden. Aus diesem Grund können einige Anwendungen sich dafür entscheiden, in der PALU die Zeittakt- bzw. Zeitkompensation nicht aufzunehmen oder nur kleine Zeittaktdifferenzen zu kompensieren.
  • Die CALU 228 führt die punktweise Bildoperation durch eine LUT mit 16-Bit-Eingang und 16-Bit-Ausgang durch, welche einen eindeutigen 16-Bit-Ausgangswert auf der Basis der beiden Pixeleingangswerte erzeugt. Die LUTs sind in einem SRAM implementiert und durch Software programmierbar. Gemeinsame Operationen, wie z. B. Bildmultiplikationen, -additionen usw. können unter Verwendung dieser LUTs in einer bekannten Weise implementiert werden. Kompliziertere Operationen (wie z. B. das Erzeugen eines Winkels und der Größe von Gradientendaten auf der Basis horizontaler und vertikaler partieller Ableitungen eines Bildes) sind aufgrund ihrer programmierbaren Natur ebenfalls mit den LUTs der CALU möglich. In der Tat kann irgendeine beliebige Zweifach-Bildoperation in den CALU-LUTs implementiert werden, wenn die Transformation für jedes eindeutige Paar von Eingangswerten einen einzigen Ausgangswert erzeugt.
  • Die CALU 228 hat außerdem intern einen 32-Bit-Bildakkumulierer. Dieser Akkumulierer ermöglicht, daß eines der Eingangsbilder oder der Ausgang der CALU-LUT über den gesamten Bereich des Bildes akkumuliert wird. Dies ermöglicht ein schnelles Verfahren zum Bestimmen des Durchschnittswertes auf einem Bild und kann auch für Operationen, wie z. B. Kreuzkorrelationsberechnungen des vollständigen Bildes verwendet werden.
  • Vorzugsweise ist die CALU 228, ebenso wie alle anderen ALUs und FPGAs in dem VPS der Erfindung für unterschiedliche Hardwarefunktionen neu konfigurierbar, wobei die Neukonfigurierung durch Software auf einem oder mehreren der Mikroprozessoren 12 der PM 10 durch eine JTAG-Schnittstelle erfolgt.
  • Die PALU 232 ist als ein für zahlreiche verschiedene Videooperationen wiederkonfigurierbares Gerät ausgelegt. Die PALU 232 ist dafür ausgelegt, durch eine JTAG-Steuerung programmiert zu werden, wobei ein Serienkommunikationskanal für das Testen von Geräten unter Verwendung einer Grenzabtastung ausgelegt ist, und zwar durch die Mikroprozessoren 12 auf der PM 10 nach der Rückstellung beim Einschalten. Die PALU 232 hat vier Videoeingänge und zwei Videoausgänge, die für das VPS eine zweifache 16-Bit-Funktionsfähigkeit bereitstellen. Mit der PALU 232 ist ein 4M × 32-DRAM verbunden, so daß eine große Vielfalt von Verarbeitungsfunktionen durch Softwarekonfigurierung implementiert werden kann, welche Verwendung von einer großen, 32-Bit breiten Speicherbank machen kann. Die PALU 232 kann demnach programmiert werden, um eine Schar verschiedener Videooperationen durchzuführen, je nach den Konfigurationsdaten, die verwendet werden, um das Gerät zu konfigurieren.
  • Die VPD-Stellen 234 und 236 auf der VPM 20 sind bereitgestellt für das Erweitern und Anpassen der Fähigkeiten des VPS. Spezielle Videogeräte, wie z. B. Videoanzeigen, Videodigitalisierer, Korrelationseinheiten, Bildverzerrer und andere Verarbeitungseinheiten können in Tochterplatinenmodellen inkorporiert sein und dem VPS hinzugefügt werden. Jeder VPD-Platz 234 und 236 hat bis zu sechs Kreuzungspunkteingänge und sechs Kreuzungspunktausgänge für Videodaten zu und von dem Kreuzpunktschalter 202 der VPM, je nachdem, welche VPD installiert ist. Außerdem hat jede VPD vier ihr zugeordnete Interrupts, um eine durch Interrupts getriebene Hardwaresteuerung zu koordinieren.
  • Wie oben erwähnt, war ein kritischer Gesichtspunkt für die Auslegung des VPS gemäß der Erfindung die effiziente Steuerung der Hardware durch einen einzelnen oder mehrere Prozessoren. Das Videoformat, die Verwendung des RD START-Signals und die automatische Zeittaktkompensierung der CALU 228 ermöglichen allesamt, daß das VPS in einfacher und effizienter Weise in Software programmiert werden kann. Um zu ermöglichen, daß das VPS in einer Multitasking-Mehrprozessorumgebung gesteuert wird, werden die VPM-Videogeräte durch interruptgetriebene Steuerung gesteuert. Interrupts stellen ein Verfahren zum Umschalten von Funktionen und Blockieren von Funktionen bereit, während Funktionen darauf warten, daß Videooperationen abgeschlossen werden.
  • Die wichtigen Interrupts in dem VPS sind Interrupts, welche den Abschluß eines Videovorgangs signalisieren. Anders gesprochen werden Interrupts durch Geräte erzeugt, die als Video dienen: Videodaten treten in das Gerät ein, verlassen das Gerät jedoch nicht. Geräte und Vorgänge auf den VPMs 126, die für Interrupterzeugung wichtig sind, sind die folgenden:
    Abschließen von Speichervorgängen für die Speicherung eines Rahmens bzw. Einzelbildes 204210.
    Abschluß von Vorgängen innerhalb der CALU 228,
    Abschluß von Vorgängen innerhalb der PALU 232.
    Abschluß von relevanten Vorgängen auf einer VPD.
  • Auf die Steuerregister, LUT-Speicher und Einzelbildspeicher auf den VPMs 126 kann durch die Mikroprozessoren 124 auf der PM 122 über den GCB 130 zugegriffen werden. Der beispielhafte GCB 130 ist als ein Kompakt-PCITM-Bus implementiert, bei welchem jede VPM 126 eine abhängige PCI- (GCB-) Steuerung 246 hat, welche PCI-Zugriffsanforderungen von dem GCB 130 decodiert und die Zugriffsanforderungen an die verschiedenen Geräte auf der VPM 126 über den lokalen Steuerbus 242 leitet, der innerhalb der VPM 126 liegt.
  • Die Tochterplatinen für die Videoverarbeitung (VPDs) werden jeder VPM 126 hinzugefügt, um spezielle Funktionen bereitzustellen. Jede VPD hat zusätzlich zu einem Steuerungsbus eine Anzahl von Videoeingangs- und -ausgangsanschlüssen, die direkt mit dem VPM-Kreuzpunktschalter 202 verbunden sind. In einer beispielhaften Ausführungsform der VPM 126 können zwei VPDs installiert sein, wobei jede VPD bis zu sechs Videoeingangsanschlüsse und sechs Videoausgangsanschlüsse hat. Drei Abtast-VPDs, welche in der derzeitig bevorzugten Ausführungsform der VPM 126 implementiert sind, werden nachstehend unter Bezug auf die 58 beschrieben.
  • 5 veranschaulicht eine digitalisierende VPD. Die digitalisierende VPD beruht auf dem Videodecoderchip (502) SAA7111A von Philips, welche zusammengesetzte und komponentenweise Videodaten (S-Video) digitalisiert, und zwar sowohl für Fernsehsignale nach dem National Television Standard Committee (NTSC) als auch nach Phase Alternate Line (PAL). Die beispielhafte VPD verwendet drei Kanäle, um drei asynchrone Farbvideosignale zu digitalisieren. Die beispielhafte, digitalisierende VPD unterstützt auch einen RGB-Eingang, indem sie jede Farbkomponente in einem getrennten Videodecoder 502 digitalisiert. Eine parallele D1- oder sonstige digitale Schnittstelle 504 ist ebenfalls integriert, um parallele D1- oder sonstige digitale Eingangsgrößen zu handhaben.
  • Die Videodecoder 502 digitalisieren Daten in Feldern von 72 × 242 bei 60 Hz (NTSC) oder 720 × 288 bei 50 Hz (PAL). Zwei digitale Kanäle werden an den Ausgang geschickt, einer nur für die Luminanz (Y), und einer für die verschachtelten U- und V-Farbkomponenten. Dies liefert Daten in dem 4:2:2-Format, wie es durch SMPTE 125M und ähnliche Standards definiert wird. Jeder Videodecoder 502 liefert digitale Videodaten für zwei Feldpuffer, dem Y-Feldpuffer 506 für den Luminanz-KanaI und den UV-Feldpuffer 508 für den Farb- (U, V) Kanal. Die Puffer 506 und 508 stellen eine optimierte Verarbeitung für die digitalisierende VPM bereit, indem sie die 13,5 MHz-Daten von den Videodecodern 502 puffern, gefolgt von einem Lesen eines vollständigen Feldes mit dem VPM-Systemtakt (beispielsweise 33 MHz) in die VPM-Einzelbildspeicher und/oder sonstige Verarbeitungselemente.
  • Zusätzlich wird vorzugsweise ein programmierbarer Interrupt bereitgestellt, welcher der Systemsteuerung anzeigt, wann Daten von den Feldpuffern 506 und 508 mit der VPM-Taktgeschwindigkeit gelesen werden können, ohne das Videoschreiben der Felddaten bei 13,5 MHz zu "überholen". Dies gewährleistet einen maximalen Durchsatz der Daten und der Verarbeitungsfunktionen auf der VPM 126, während die Latenzzeit von Videodaten von der digitalisierenden VPD minimal gemacht wird.
  • 6 veranschaulicht eine beispielhafte Korrelator-VPD. Die Korrelator-VPD ist für eine Abschätzung schneller Bewegung, Stabilisierung und Bildverschmelzung ausgelegt. Sie enthält drei CALUs 228 mit FIFOs 230 und einem SRAM, welche mit der CALU 228 mit den FIFOs 230 und dem SRAM auf der VPM 126 identisch sind. Zusätzlich folgen auf die Ausgangsgrößen der CALU 228 ein PYR-2-Pyramidenverarbeitungs-ASIC 602 und ein LUT 604, ähnlich der Kombination aus PYR-2 und LUT (beispielsweise 212, 220) auf der VPM 126. Viele Anwendungen für die Bewegungsabschätzung und Verschmelzung ertordern einen Filtervorgang, der auf eine Korrelation oder sonstige in er CALU 228 ausgeführte Berechnung folgt. Der PYR-2-ASIC 602 kann auch so eingestellt werden, daß er durch die beiden Videodatenkanäle hindurchläuft.
  • 7 veranschaulicht eine beispielhafte Verzerrer-VPD. Die Verzerrer-VPD 28 ist ausgelegt für eine parametrische Bildverzerrung in Realzeit und enthält zwei SRAM-Bänke 702, 704 für eine gleichzeitige Bilderfassung und -verzerrung. Die Verzerrer-VPD führt auch eine Adreßerzeugung für parametrische Bildtransformation durch unter Verwendung eines Adreßgenerators 706. In einer beispielhaften Ausführungsform sind die Transformationen affine (sechs Parameter) Transformationen und der Adreßgenerator 706 ist implementiert in Form von zwei FPGAs (Alters EPFI-OK70). Diese FPGAs sind groß genug, um die Implementierung von bikubischen oder projektiven Transformationen (eine Teilung von zwei affinen Transformationen) unterstützen zu können. Ein optional vorgesehener 32-Bit-Strömungsfeldeingang (16 Bits für X und 16 Bits für Y) kann der parametrischen Transformation durch einen Addierer 708 hinzugefügt werden, indem vier Videodatenströme für die VPM 126 empfangen werden (d. h. von vier Einzelbildspeichern). Das erzeugte Strömungsfeld kann auch in Form von vier Videodatenströmen an die VPM 126 gesendet werden. Die beispielhafte Verzerrer-VPD enthält auch einen bilinearen Interpolieren 710, der bis zu einer Auflösung von 1/32 Pixel genau ist.
  • Die oben beschriebene Schaltung ist ausreichend, beide nachstehend beschriebenen Signalverarbeitungsfunktionen zu implementieren. Während diese Funktionen so beschrieben werden, daß sie durch diese für einen speziellen Zweck vorgesehene Signalverarbeitungsschaltung durchgeführt werden, kann man sich vorstellen, daß sie auch unter Verwendung einer anderen Schaltung, wie z. B. integrierten Schaltkreisen mit kaskadenweise verbundenen Pyramidenprozessoren implementiert werden können, oder mit Software, die auf einem Mehrzweckcomputer läuft. Wenn diese Signalverarbeitungsfunktionen in Software implementiert werden, kann das Programm auf einem Träger, wie z. B. einer magnetischen Festplatte, einer optischen Scheibe bzw. Diskette oder einer Radiofrequenzträgerwelle verkörpert sein.
  • Die erste Ausführungsform der Erfindung betrifft die Verarbeitung mehrerer Bilder, um ein einzelnes Bild zu erzeugen, das einen größeren Dynamikbereich hat als irgendeines der Komponentenbilder (Bilder, aus denen es zusammengesetzt ist). Die aktuelle Sensortechnologie verwendet einen Standardsatz von Techniken zum Erzeugen des besten Dynamikbereichs für einen gegebenen Satz von Abbildungsbedingungen. Übliche Techniken umfassen eine automatische Verstärkungssteuerung, Gamma-Korrektur und automatische Apertur-Steuerung. Jedes dieser Verfahren wird verwendet, um die Abbildungsparameter des Sensors einzustellen, indem entweder die Menge des auf den Sensor auftreffenden Lichts erhöht wird (automatische Apertur/Iris), durch Verstärken der Reaktion der Sensorkomponenten (automatische Verstärkung), oder durch Anwenden von nicht linearen Übertragungsfunktionen auf die Abbildung, um das visuelle Erscheinungsbild der Sensorabbildung zu verbessern (Gamma-Korrektur).
  • Keine dieser Techniken befaßt sich mit den grundlegenden Einschränkungen des Sensors: daß er eine Reaktion nur über einen begrenzten Bereich von Signalstärken liefern kann. Diese Verfahren versuchen, den Sensor so einzustellen, daß er an unterschiedliche Abbildungsbedingungen angepaßt ist, jedoch innerhalb des bekannten und unveränderlichen dynamischen Bereichs, welcher für den Sensor intrinsisch ist.
  • Fortgeschrittene CMOS-Sensoren verwenden derzeit ein Verfahren zur Vergrößerung des Dynamikbereichs, welches effektiv mehrere Integrationszeiten auf mehrere Sensorstellen anwendet. Demnach ist, nachdem die vollständige Integrationszeit abgeschlossen ist, das resultierende Ausgangspixel das Ergebnis mehrerer Integrationsintervalle mit unterschiedlichen Zeitdauern. Dies wird erreicht durch Definieren einer maximalen Sättigung der Pixelintensität im Verlaufe der Zeit. In der Praxis werden die Pixel so eingestellt, daß innerhalb sehr heller Bereiche das Pixel bei einem Spannungsschwellwert sättigt, der unterhalb der wirklichen maximalen Spannung für dieses Pixel liegt. Am Ende des Integrationsintervalls läßt man die Ladung sich über diesen Grenzwert hinaus ansammeln, bis das maximale Sättigungsniveau für das Pixel erreicht ist oder, alternativ, wenn die Integrationszeit für dieses Feld endet. Dieses Verfahren der Erweiterung des Dynamikbereichs liefert in der Tat eine Verbesserung des Dynamikbereiches, jedoch auf Kosten verminderter Intensitätsauflösung. Helle Bereiche zeigen Merkmale, jedoch haben diese Merkmale tendenziell einen geringen Kontrast und sind im Vergleich zu anderen Bereichen der Szene verwaschen.
  • Die Verwendung von mehreren Integrationszeiten für jedes Pixel auf Sensorniveau befaßt sich auch nicht mit einem wichtigen Aspekt der Sensorleistungsfähigkeit: Maximierung der in einem lokalen Bereich des Bildes gefundenen Merkmale. Diese Auswahltechniken arbeiten pixelweise und berücksichtigen nicht die lokale Kontrastenergie des Bildes. Demnach befaßt sich dieses Verfahren mit dem Gegenstand der Sättigung und Schleierbildung, befaßt sich jedoch nicht mit der Aufgabe, die Kontrastenergie der Sensorabbildung auf lokalen Stellen in der Szene maximal zu machen.
  • Eine zweite Ausführungsform der Erfindung betrifft das Verarbeiten mehrerer Bilder, um ein einzelnes Bild zu erzeugen, das eine größere Tiefenschärfe (auch als Schärfentiefe bezeichnet) hat, als irgendeines der Einzelbilder, aus welchen es besteht. Die Tiefenschärfe für ein gegebenes optisches System ist für die Architektur der Sensoroptik intrinsisch und hängt nicht mit dem Abbildungsarray des Sensors zusammen. Die Tiefenschärfe ist ein unmittelbares Ergebnis von punktprojizierenden (Loch-) Kameras, die den Brennpunkt auf der Basis von Einstellungen der Brennweite der Kamera einstellen können, wobei die Brennweite den effektiven Abstand von der Lochöffnung bis zu der Abbildungsebene beschreibt. Mit dieser Optik kann die Tiefenschärfe vergrößert werden durch Einstellen der Größe der Lochöffnung in der Optik, jedoch auf Kosten einer gleichzeitigen Einstellung der Lichtmenge, die auf die Bildebene auftrifft.
  • Es gibt derzeit kein Verfahren, die Tiefenschärfe für einen Sensor zu erweitern bei Aufrechterhaltung einer konsistenten Apertur und Integrationszeiteinstellungen, da dieses physikalische Beschränkungen sind.
  • Eine dritte Bildverarbeitungstechnik betrifft das Verarbeiten mehrerer Bilder, die zeitlich kurz nacheinander von einer einzelnen Szene aufgenommen wurden, um das eine Bild auszuwählen, welches die geringste Bewegungsverzerrung zeigt. Eine der schwierigsten Bildaufnahmesituationen besteht darin, daß sich die Kamera und der Benutzer auf einer sich bewegenden, instabilen Unterlage befinden. In dieser Situation hat man, wenn die Integrationszeit groß ist, eine beträchtliche Be wegungsunschärte in den aufgenommenen Bildern. Derzeit besteht der einzige Weg, diese Bewegungsverzerrung zu vermindern (falls möglich), darin, die Integrationszeit des Sensors zu reduzieren. Dies vermindert jedoch auch die Helligkeit und den Kontrast des durch den Sensor erzeugten Bildes.
  • Derzeit gibt es kein Verfahren zum automatischen Auswählen eines Videoeinzelbildes, welches keine beträchtliche Bewegungsverzerrung hat. Verarbeitungsverfahren sind für das Entzerren des Videoeinzelbildes nach der Verarbeitung verfügbar, jedoch verzerren die Verfahren zum Beseitigen der Unschärfe die Abbildung und können keine Bildmerkmale wiedergeben, die aufgrund des unscharf machenden Vorgangs unwiderruflich verloren gegangen sind.
  • Eine vierte Bildverarbeitungstechnik betrifft das Verarbeiten mehrerer Bilder, die aus einer schlecht beleuchteten Szene aufgenommen wurden, um ein einzelnes Bild zu erzeugen, das eine höhere Helligkeit und einen höheren Kontrast als irgendeines der Bilder hat, aus welchen es zusammengesetzt ist. Die derzeitige Sensortechnologie liefert mehrere Verfahren zum Handhaben der Leistungsfähigkeit bei schwachem Licht. Das einfachste besteht darin, die Apertur/Iris des Sensors zu öffnen, um mehr Licht auf den Sensor auftreffen zu lassen, und die Integrationszeit des Sensors einzustellen. Es gibt jedoch Fälle, in welchen die Apertureinstellungen und die Integrationszeiten nicht beliebig gesteigert werden können, weil beispielsweise entweder der Sensor oder Bestandteile in der Szene sich in Bewegung befinden. Wenn die Integrationszeit groß ist und die relative Bewegung des Sensors und der Szene, die abgebildet wird, groß sind, so kann man beträchtliche Artefakte der Bewegungsverzerrung bzw. -unschäre in dem resultierenden Bild erhalten. Demnach ist es mit den heutigen Sensorsystemen schwierig, scharte Abbildungen dunkler Szenen mit starkem Kontrast und ohne Bewegungsunschärfe zu erhalten.
  • Es gibt verbesserte Abbildungssensoren, die die Lichtniveaus verstärken können und die Bilder schwach beleuchteter Szenen einfangen können. Auch diese Verfahren haben jedoch ihre Grenzen, einschließlich hoher Kosten, einer beträchtlichen Verstärkung des Rauschens ebenso wie des Videosignals und beträchtliche Hardwarekosten.
  • Eine fünfte Bildverarbeitungstechnik bezieht sich auf ein Signalverarbeitungsvertahren, das mehrere von einer Szene aufgenommene Bilder verwendet, um die Einflüsse von Störungen im optischen Pfad zu reduzieren, wie sie beispielsweise auftreten können, wenn das Bild durch beträchtliche thermische oder atmosphärische Variationen betrachtet bzw. aufgenommen wird. Diese Effekte, die nachstehend als Szintillationen bezeichnet werden, sind ein Ergebnis der Zustände bzw. Bedingungen, unter welchen die Szene abgebildet wird, und werden nicht durch den Sensor verursacht. Die derzeitige Sensortechnologie kann diese Verzerrungen nicht korrigieren.
  • Elektronische Verarbeitung kann globale Bewegungseffekte kompensieren, wie z. B. die Stabilisierung einer elektronischen Szene, jedoch sind dies globale und nicht lokal variierende Effekte. Außerdem ist eine solche digitale Bewegungsabschätzung typischerweise parametrisiert und beruht daher auf einer relativ einfachen geometrischen Beziehung zwischen den Videoeinzelbildern. Im Gegensatz hierzu erscheinen Szintillationen in Videosequenzen als lokale, im hohen Maße nicht lineare Bewegung, die mit einfachen Transformationen nur auf einem sehr hohen lokalen Niveau (d. h. mit kleinen Teilen bzw. Bestandteilen in dem Bild) modelliert werden können. Demnach beseitigen die globale Bewegungsabschätzung und die Transformationsvertahren Szintillationen nicht in effektiver Weise.
  • Andere räumlich-zeitliche Filterverfahren, wie z. B. die zeitliche Durchschnittbildung von Videosequenzen, können Szintillationseffekte beseitigen, jedoch nur auf Kosten der Bildschärfe. Statt daß man eine Videosequenz mit Szintillation hat, erzeugen räumlich-zeitliche Filter Bilder, die über die Zeit hinweg geglättet sind und damit unscharf sind. Die Szintillationsverzerrungen haben auch die Tendenz, sich andauernd zu verändern und daher sind Filter zur Unterdrückung von Ausreißern, wie z. B. Mittelwertfilter, ineffizient bei der Verminderung von Szintillationseffekten.
  • Eine sechste Bildverarbeitungstechnik betrifft ein Verfahren zum Verbessern der Qualität der Bilder in einer Videosequenz. Traditionelle Ansätze beruhten auf dem Schärtermachen individueller Einzelbilder. Die Verbesserung der Bildqualität ist jedoch üblicherweise begrenzt. Andererseits ermöglicht der nachstehend offenbarte Ansatz, da er mit mehreren Bilder in einer Sequenz arbeitet, eine dramatische Verbesserung der Bildqualität.
  • Bevor die Verfahren zum digitalen Verbessern von Abbildungen aus einem gegebenen Sensor im einzelnen erläutert werden, ist es zweckmäßig, Verfahren zum Verwenden des Sensors in unterschiedlichen Anwendungen zu beschreiben.
  • Die aktuelle Aufnahme von Bildern beruht zu beträchtlichen Teilen auf einem Eingriff des Benutzers, um den Akquisitionsprozeß zu leiten. In standardmäßigen Video- und Fotokameras wählt beispielsweise der Benutzer die Brennweite manuell oder über eine Autofocus-Einrichtung anhand eines bestimmten Bereiches der Szene und hält dann den Fokus nach dieser Einstellung fest. Auf diese Weise kann der Benutzer eine Brennpunktposition bei einer festen Distanz von der Kamera auswählen, um unterschiedliche Brennweiteneffekte zu erzielen.
  • In ähnlicher Weise stellen Video- und Fotokameras automatisch oder unter manueller Steuerung eine Einstellung der Integrationszeit und -apertur/-iris bereit. Auf diese Weise kann das Niveau des Umgebungslichts gemeinsam mit dem Betrag der Bewegung abgeschätzt werden, welche tolerierbar ist.
  • Ein gemeinsamer Faden, der sich durch alle Ausführungsformen der vorliegenden Erfindung zieht, besteht in der Verwendung von mehreren miteinander ausgerichteten Videoeinzelbildern am Eingang, um ein einzelnes Videoausgangsbild zu erzeugen, oder um ein einzelnes stehendes Ausgangsbild zu erzeugen. Anstatt den Bildauswahl- und -kombinationsprozeß unter manuelle Steuerung zu setzen, kann ein elektronisch gesteigertes Abfragen die Abbildungsparameter automatisch variieren. Demnach können diese Verfahren selbst dann implementiert werden, wenn der Operator nur minimale Kenntnisse des stattfindenden Abbildungsvorgangs hat.
  • Als ein Beispiel des möglichen Nutzens dieser Art von Sensorverbesserung betrachte man die Vorteile von Videosensoren mit hoher Einzelbildrate. Diese Sensoren können Videoeinzelbilder mit Geschwindigkeiten bereitstellen, die wesentlich höher sind als für standardmäßig definierte Videosignale, wobei bis zu 300 Einzelbilder/Sekunde dem derzeitigen Stand der Technik entsprechen, und hier finden noch Verbesserungen statt. Wenn ein solcher Sensor in Verbindung mit elektronisch verbesserten Erfassungsverfahren verwendet würde, so könnten die Parameter für das Abbilden automatisch zehnmal innerhalb einer einzigen Standardzeit für ein Videoeinzelbild eingestellt werden. Unter Verwendung dieses Ansatzes ist es daher möglich, eine Videosequenz mit 30 Einzelbildern pro Sekunde zu erzeugen, welche die Information der zehnfachen Menge an Videodaten auswertet. Während der standardmäßigen Zeit für ein Videoeinzelbild können unterschiedliche Einstellungen für den Fokus und die Integrationszeit verwendet werden. In ähnlicher Weise können zehn Einzelbilder an einem gemeinsamen Koordinatensystem ausgerichtet und zu einem einzelnen Videoeinzelbild kombiniert werden, welches eine verbesserte räumliche Auflösung hat. Alternativ können zehn ausgerichtete Videoeinzelbilder mit einer sehr kurzen Integrationszeit aufgesammelt werden, was dem Operator scharfe, kontrastreiche Abbildungen selbst bei schlechten Beleuchtungsbedingungen liefert.
  • Diese Feststellung schließt jedoch nicht Verwendung standardmäßiger Videosequenzen für eine verbesserte Bilderfassung aus. Auch Videodateninformation mit standardmäßiger Geschwindigkeit können über die Zeit hinweg miteinander kombiniert werden, um Szintillation zu entfernen, die Auflösung zu verbessern und die Tiefenschärfe sowohl von stehenden Bildern als auch von Videosequenzen zu vergrößern. Weiterhin können diese Verfahren innerhalb eines eher manuellen Rahmens bereitgestellt werden, der es einem Operator ermöglicht, unterschiedliche Einzelbilder für die Kombination auszuwählen. Dies ist möglicherweise am ehesten relevant für digitale Fotokameras, wenn mehrere Bilder auf manueller Basis beschafft werden und eine Rekombination keinen strikten Zeitbeschränkungen unterliegt.
  • Die größte Klasse von Verbesserungsverfahren, die nachstehend beschrieben werden, beruht auf derselben zugrundeliegenden Technik der Verschmelzung mehrerer Bilder. Dieser Abschnitt stellt unter Bezug auf 8 eine Übersicht des Verschmelzungsprozesses und der Verbesserungsverfahren bereit, die auf Verschmelzung beruhen, insbesondere der Erweiterung des Dynamikbereichs, der Erweiterung der Tiefenschärfe und der Qualitätsverbesserung von Bildfolgen.
  • Der erste Teil dieses Abschnittes ist eine Übersicht des grundlegenden Verschmelzungsprozesses. Dann werden spezifische Verbesserungsmethoden auf der Basis des Verschmelzungsprozesses beschrieben. Frühere Arbeiten zum Gebrauch von Pyramidenfiltern in dem Verschmelzungsprozeß für die Verschmelzung zweier Bilder haben sich typischerweise auf die Bearbeitung von zwei Bildern konzentriert, die beide Intensitätsbilder und/oder von zwei verschiedenen Sensoren erhalten wurden (beispielsweise Bilder aus dem sichtbaren und dem Infrarot- (IR-) Bereich). Ein beispielhaftes Verfahren für das Verschmelzen zweier Bilder besteht darin, jedes Bild zunächst in eine Laplacesche (hochpassgefilterte) Pyramide zu zerlegen, wobei die Pyramide auf ihrer höchsten Ebene ein Gaußsches (tiefpassgefiltertes) Bild hat. Der nächste Schritt besteht darin, eine relativ hervorstechende Eigenschaft für entsprechende Teile des Bildes auf jeder Ebene zu definieren (beispielsweise welcher der entsprechenden Teile eine größere Amplitude hat). Die mehr hervorstechenden Eigenschaften definieren komplementäre Sätze von Masken für jede Pyramidenzerlegung. Die maskierten Bildbereiche werden dann zu einer einzelnen Pyramide kombiniert, die verwendet wird, um daraus rückwärts ein zusammengesetztes Bild zu generieren. Dieses allgemeine Verfahren kann verbessert werden durch Verdoppeln der Dichte der Laplaceschen Bilder. Doppelt dichte Gaußsche Pyramiden werden folgendermaßen konstruiert. Das Bild mit der höchsten Auflösung wird auf voller Auflösung gehalten. Um das Niveau 1 der Pyramide zu erzeugen, wird das Bild mit dem höchsten Auflösungsniveau ohne Teilabtastung tiefpassgefiltert. Nachfolgende Gaußsche Pyramidenniveaus doppelter Dichte werden rekursiv durch Tiefpassfiltern der doppelt dichten Bilder des vorherigen Niveaus mit einem zusätzlichen Tiefpassfilter berechnet mit anschließendem Teilabtasten (Subsampling) des gefilterten Ergebnisses. Das zweite verwendete Tiefpassfilter hat eine Abschneidefrequenz von 1/2 derjenigen des standardmäßigen Gaußschen Tiefpassfilters, welches für standardmäßige Gaußsche Pyramiden einfacher Dichte verwendet wird. Laplacesche Pyramiden doppelter Dichte werden aus den Gaußschen Pyramiden durch Filtern jedes Gaußschen Pyramidenbildes doppelter Dichte mit dem zweiten Tiefpassfilter und dann Subtrahieren der gefilterten Version desselben Bildes von dem. doppelt dichten Gaußschen Bild berechnet. Zusammenfassend umfaßt dieses Verschmelzungsverfahren die Auswahl und Kombination von Merkmalen von mehreren Bildern unter mehreren Ausrichtungen und Maßstäben im Rahmen eines Pyramidenfilters und dann Rekonstruieren eines einzelnen Bildes aus den kombinierten Merkmalen ebenfalls innerhalb des Pyramidenfilters.
  • Ein Aspekt der vorliegenden Erfindung betrifft Verfahren zum Durchführen von Bildverschmelzung mit Bildern, die mehrere Komponenten haben, wie z. B. Farbbilder in RGB (Rot-Grün-Blau) und YUV (Luminanz bzw. Helligkeit, Sättigung und Farbe). Ein naiver Ansatz für die Bildverschmelzung in Farbe kann das Ausführen einer Bildverschmelzung getrennt und unabhängig auf jeder Farbebene beinhalten und dann das Bereitstellen von resultierenden Dreifarbauszügen als ein einzelnes Farbbild. In der Praxis funktioniert dies aus zwei Gründen nicht:
  • Zunächst sind die Farbkomponenten eines Bildes beispielsweise durch ihre Sättigung und Farbe wiedergegeben. Diese Information (insbesondere Farbe) hat in einem Raum mit räumlichen Maßstäben keine sinnvolle Zuordnung; mit anderen Worten, Wiedergaben von Sättigung und Farbinformation mit mehrfacher Auflösung liefern keine unmittelbare Interpretation und sie hängen von der Zuordnung des Farbraums selbst ab. Daher hat der Auswahlprozeß im Farbraum nicht dieselben Auswirkungen, wie er sie für den reinen Intensitätsraum hat.
  • Zum zweiten ist eine einzelne Farbe tatsächlich eine Kombination dreier verschiedener Werte (R, G und B; Y, U und V etc.). Auch wenn diese Werte als Vektor wiedergegeben werden können und in verschiedene dreidimensionale Räume abgebildet werden können, ist jede Farbe dennoch ein dreidimensionaler Wert. Der Versuch, die Farbkomponenten getrennt zu rekombinieren, hebt die Abhängigkeiten in den Farbkomponenten auf und erzeugt nicht den gewünschten Verschmelzungseffekt.
  • Die Verschmelzung von Intensitätsbildern kann erreicht werden durch Auswählen und Verschmelzen von Grauniveaupixeln mit benachbarten Pixeln, und zwar auf zunehmenden Niveaus in der Pyramide. Das resultierende zusammengesetzte Bild umfaßt Information aus beiden Bildern, je nach der angegebenen Auswahlfunktion. Da jeder Vektor, welcher eine Farbe wiedergibt, jeder Komponente ein Gewicht zuordnet, liefert das unabhängige Auswählen von Komponenten paarwei se aus zwei Vektoren einen Vektor, der die ursprüngliche Wichtung nicht erfüllt und erzeugt somit einen künstlichen Gegenstand (Artefakt).
  • Intuitiv ist das, was gewünscht wird, in der Lage zu sein, eine Verschmelzung mehrerer Bilder in der Weise Focalebenen oder unterschiedliche Dynamikbereiche haben, unter der Randbedingung verbessert werden, daß die Farben für beide Bilder repräsentativ sind. Demnach sollte das Ergebnis des Verschmelzungsprozesses, welcher auf Farbbilder angewendet wird, sowohl die Konsistenz der Farbmischung erhalten (d. h. die Farbe von den einzelnen Komponentenbildern sollte erhalten werden oder sollte das Ergebnis einer Verschmelzung der ursprünglichen Farben sein) und der räumlichen Farbkonsistenz (d. h. die Grenzen zwischen Farben sollten aufrechterhalten bleiben).
  • Das erste Kriterium, die Konsistenz der Farbmischung, verlangt, daß der Farbwert an einem bestimmten Pixel das Ergebnis einer Mischung der Farben der ursprünglichen Bilder anstatt irgendein beliebiger Wert ist, der durch den Zusammenfügungsprozeß erhalten wird. Das zweite Kriterium, die räumliche Farbkonsistenz, befaßt sich mit Effekten, die als Schleierbildung oder Farbaliasing beschrieben werden können.
  • Bevor die Anwendung des Verschmelzungsprozesses für das Verbessern von Farbbildern untersucht wird, ist es zweckmäßig, den Verschmelzungsprozeß zu betrachten. Der auf zwei einzelne ebene Bilder, A und B, angewendete Verschmelzungsprozeß, der ein zusammengesetztes Bild C liefert, ist in 8 dargestellt und kann folgendermaßen skizziert werden. Die Eingangsbilder A 810 und B 812 werden durch Pyramidenprozessoren verarbeitet, um Bildpyramiden 814 und 816 zu erzeugen. Diese Bildpyramiden werden gemäß entsprechenden Prägnanzfunktionen 818 und 820 verarbeitet, um entsprechende Prägnanzpyramiden 822 und 824 zu bilden. Ein Auswahlprozeß 826 wird auf die Prägnanzpyramiden 822 und 824 angewendet, um eine Maske M zu erzeugen 828, welche Merkmale von jeder Ebene der Pyramide definiert, um die Pyramidenwiedergabe des verschmolzenen Bildes zu erzeugen. Unter Verwendung dieser Maske werden die Bildpyramiden 418 und 416 durch eine Summierungsfunktion 830 so kombiniert, um die Pyramidenwiedergabe (nicht dargestellt) des verschmolzenen Bildes zu erzeugen. Diese Pyramidenwiedergabe wird dann verwendet, um das verschmolzene Bild 832 zu rekonstruieren.
  • Damit dieser Prozeß gültig ist, müssen die Bilder so aufgenommen werden, daß dieselbe Szene abgebildet und registriert wird. Wenn man keine registrierten bzw. registerhaltigen Bilder hat, so kann dies unvorhersehbare Ergebnisse hervorrufen. Wenn die Bilder nicht dieselbe Szene aufnehmen, so kann das Ergebnis Artefakte aufgrund von Bildmischung enthalten. Bildausrichtungstechniken sind wohlbekannt und werden beispielsweise in einem Artikel von J. R. Bergen et al. beschrieben, mit dem Titel "Hierarchical Model-Based Motion Based Estimation", European Conference on Computer Vision, S. 237–252, Santa Margerita Ligure, Mai 1992. Die Bildausrichtung kann durchgeführt werden, indem man beispielsweise auf ein Bild eine parametrische Transformation, wie z. B. eine affine Transformation, anwendet, was das Bild mit dem anderen Bild ausrichtet. Die Parameter für die Transformation werden bestimmt durch Vergleichen des einen Bildes mit dem anderen Bild unter Verwendung zeitlich-räumlicher Ableitungen der beiden Bilder, um die Bewegung zwischen den Bildern zu berechnen. Alternativ können zwei Bilder miteinander verglichen werden, um ein Bewegungsvektorteld zu erzeugen (auch als Strömungsfeld bezeichnet), welches die Verschiebung von Objekten von dem einen Bild zu dem anderen Bild auf Basis der einzelnen Pixel beschreibt. Das Bewegungsvektorfeld kann erzeugt werden unter Verwendung der Korrelator-VPD, die oben unter Bezug auf 6 beschrieben wurde, und das eine Bild kann zu einer Ausrichtung mit dem anderen Bild verzerrt werden, indem die Verzerren-VPD verwendet wird, die oben unter Bezug auf 7 beschrieben wurde.
  • Dieser Abschnitt beschreibt die Pyramide, die für das Ziel der Verschmelzung aufgebaut wurde. Das US-Patent 5,325,449 mit dem Titel "METHOD FOR FUSING IMAGES AND APPARA-TUS THEREFOR" von Burt et al. enthält eine Beschreibung des Pyramidenaufbaus, der Bildverschmelzung und der Architektur mit einem beispielhaften Pyramidenprozessor, beispielsweise dem PYR2-Prozessor, der in den 4 und 6 dargestellt ist.
  • Für jedes Bild wird eine Laplacesche Pyramide konstruiert unter Verwendung des FSD- (Filtersubtraktionsschwächungs-) Vertahrens. Demnach wird die k-te Ebene der FSD-Laplaceschen Pyramide, L5, von der entsprechenden Gaußschen Ebene und der Gaußschen aufgebaut, gefaltet mit dem 5 × 5 trennbaren Tiefpassfilter w, der eindimensionale horizontale Filterkomponenten h und v hat, wobei h = (1/16) [1 4 6 4 1] und v = (1/16) [1 4 6 4 1]T ist.
  • Figure 00210001
  • Wegen des Schwächungsvorgangs und da w kein idealer Filter ist, führt die Rekonstruktion des ursprünglichen Bildes aus den FSD-Laplace-Pyramiden zu einem gewissen Informationsverlust. Um zu berücksichtigen, daß einige Information verloren gegangen ist, wird ein zusätzlicher Term zu der Laplace-Pyramide hinzuaddiert. Diesen zusätzlichen Term erhält man durch Subtrahieren der gefilterten Laplace-Pyramide von der ursprünglichen Laplace-Pyramide.
  • Figure 00210002
  • Die Hinzufügung dieses Terms hat den Effekt, daß ermöglicht wird, daß die Rekonstruktion einen Teil der Frequenzinformation wiederherstellt, der anderenfalls verloren gegangen wäre. Zusätzlich wird die Schärfe des rekonstruierten Bildes erhöht. In den folgenden Unterlagen bedeuten Bezugnahmen auf die Laplace-Funktion des Bildes Bezugnahmen auf diese modifizierte Laplacesche Funktion.
  • Die Prozesse 818 und 820 der Berechnung hervorstechender Merkmale, die mit σ gekennzeichnet sind, drücken eine Familie von Funktionen aus, die auf die Pyramiden 814 und 816 beider Bilder arbeiten, was zu den Prägnanzpyramiden 822 und 824 führt. Effektiv können die Prägnanzvorgänge Funktionen sein, die auf die einzelnen Pixel wirken (wie z. B. durch Auswinkeln), oder auf einen Bereich.
  • Die Prägnanzfunktion fängt die Bedeutung dessen ein, was verschmolzen werden soll. Wenn Bilder kombiniert werden, die unterschiedliche Brennebenen haben, ist ein Maß für die Prägnanz beispielsweise die Körnigkeit, mit welcher die Bilder in verschiedenen Bereichen des Bildes erscheinen. In diesem Fall ist ein geeignetes Maß eines, welches die Schärfe bzw. Kantigkeit eines bestimmten Punktes eines Bildes hervorhebt. Geeignete Wahlen sind deshalb Funktionen, die mit der Amplitude des Bildes arbeiten, wie z. B. der Absolutwert oder die Quadrierung. Die Prägnanzpyramide für die Verarbeitung eines solchen Bildes könnte ausgedrückt werden als:
  • Figure 00220001
  • Wenn zwei ausgerichtete Bilder A und B derselben Szene verschiedene Brennweiten bzw. Brennebenen haben, so kann für eine gegebene Bildposition (i,j) die Prägnanz bzw. Betonung eines der Bilder größer sein als die des anderen. Dies legt nahe, daß für das Niveau k an der Position (i,j) Information aus dem einen Bild extrahiert werden sollte, welche den größeren Prägnanzwert hat, was impliziert, daß die Kante ausgeprägter ist und damit im Fokus liegt. Während dieser Vergleich und eine binäre Entscheidungsoperation für zwei einzelne Bilder ausreichend ist, liefert dieselbe Operation, die für eine Bildsequenz ausgeführt wird, jedoch ein flackerndes Bild für Bereiche, in welchen der Grad der Schärfe bzw. Kantigkeit nahezu gleich ist. Die Auswahl der Werte von einem gegenüber dem anderen Bild in Bereichen, die nur einen kleinen Gradienten haben, scheint mehr durch Rauschen im Digitalisierungsprozeß gesteuert zu sein als durch die tatsächliche Information, die in dem Bild enthalten ist. Während dieser Effekt deutlicher sichtbar ist bei Bildern, die man von verschiedenen Sensoren erhält, kann er in hohem Maße reduziert werden durch Verwendung einer Laplaceschen Pyramide doppelter Dichte, wie sie oben beschrieben wurde.
  • Die nachstehend beschriebenen Anwendungen verwenden Laplacesche Pyramiden. Man kann sich jedoch vorstellen, daß zumindest einige der Operationen, beispielsweise die Berechnung der Prägnanzfunktion, auch mit Gaußschen Pyramiden oder irgendeiner anderen Wiedergabe eines Bildes im Skalierungsraum arbeiten könnten. Die Wahl der Art der Pyramide würde dann, ebenso wie die Metrik oder das Maß der Prägnanz, von der Art der zu verschmelzenden Information abhängen. Diese Verallgemeinerung der Auswahl und des Entscheidungsvorgangs sind in 8 dargestellt, indem die Pyramiden, die Auswahl- und die Entscheidungsfunktionen sowie der Vorgang der Rekonstruktion nicht auf die Laplacesche Methode beschränkt sind.
  • Der Auswahlvorgang 826, der mit δ etikettiert ist, drückt eine Familie von Funktionen aus, die auf die Prägnanzpyramiden 822 und 824 wirken, welche aus dem Vorgang der Prägnanzberechnung erhalten wurden. Das Ergebnis dieses Prozesses ist eine Pyramidenmaske 828, die Auswahlkriterien zwischen Pixeln in den beiden Bildern definiert. Der Auswahlvorgang für das Niveau k kann folgendermaßen ausgedrückt werden:
  • Figure 00220002
  • δk identifiziert die Entscheidungsfunktion für das Niveau k, welche die Auswahlzuordnung ergibt. Eine beispielhafte Auswahlfunktion ist die Maximum- oder Max-Funktion. Diese Funktion kann ausgedrückt werden als eine Zuordnung:
  • Figure 00230001
  • Diese Zuordnung kann verwendet werden, um das verschmolzene Bild für das Niveau k zu erzeugen.
  • Figure 00230002
  • Dieser Funktionstyp ist als Hartvermischungsfunktion bekannt, da der erzeugte Plan bzw. die erzeugte Zuordnung binär ist. Wenn jedoch die Wichtung für eine bestimmte Position des Bildes nicht binär ist, so ist das zusammengesetzte Bild eine Mischung der Daten an den beiden Positionen. Es ist diese Art von Mischung, die verwendet werden kann, um ein Flackern zu vermeiden. Insbesondere kann die Zuordnungsmaske durch irgendeinen Filter vor der Rekonstruktion des zusammengesetzten Bildes geglättet werden.
  • Um zu ermöglichen, daß dieser Prozeß auf unterschiedliche Bildeigenschaften reagiert, wird eine weichere Mischfunktion eingeführt. Diese Funktion hängt von dem Wert des Parameters y ab. Insbesondere sind zwei Funktionen Ib und hb folgendermaßen definiert.
    Figure 00230003
    und für jede Pixelposition (i,j) z1 = σk(LAk(i,j)),z2 = σk(LBk(i,j))
  • Dann gilt
  • Figure 00230004
  • Die Werte von μ, lb und hb werden dann während des Rekonstruktionsvorgangs verwendet.
  • Der Rekonstruktionsprozeß 830, der mit Σ etikettiert ist, kombiniert jedes Niveau der Pyramiden der Ursprungsbilder in Verbindung mit der Pyramidenmaske, um das zusammengesetzte Bild C zu erzeugen.
  • Dieser Rekonstruktionsvorgang integriert iterativ Information von dem höchsten bis zum niedrigsten Niveau der Pyramide folgendermaßen: LCk = MkLAk + (1 – Mk)LBk Ck = LCk + w*[Ck+1]↑2wobei Ck das rekonstruierte Bild von dem Niveau N, dem niedrigsten Auflösungsniveau, bis zum Niveau k repräsentiert, und der Term "T 2 " sich auf den Erweiterungsvorgang bezieht. Der Erweiterungsvorgang besteht aus dem Verdoppeln der Breite und Höhe des Bildes durch Einführen von Spalten und Reihen von Nullen nach jeder zweiten Spalte und Zeile in dem ursprünglichen Bild und dann Falten des sich ergebenden Bildes mit dem w-Filter. Das niedrigste Auflösungsniveau in der Pyramide, N, kann unter Verwendung einer bestimmten Funktion β gemischt werden:
  • Figure 00240001
  • Eine mögliche Funktion für β könnte der Durchschnitt der beiden Gauß-Funktionen sein. Auf dem Niveau N fängt die Gauß-Funktion den Kontrast für einen Bereich ein, damit hängt die Wahl von β von dem gewünschten Effekt ab.
  • Wenn die Zuordnungsfunktion die weiche Mischung ist, die oben beschrieben wurde, so wird Lok ausgedrückt als eine Funktion von N, Ib und hb. Es sei nun a = LAk(i,j), b = LBk(i,j), c = LCk(i,j)wobei (i,j) sich auf eine Position in dem Bild bezieht, dann ist
    Figure 00240002
  • Der Verschmelzungsprozeß umfaßt viele verschiedene Typen von Bildverbesserungen auf der Basis der Wahl der ursprünglichen Bilder und des gewünschten Ergebnisses in dem zusammengesetzten Bild. Aus der obigen Beschreibung können mehrere Steuerungen für die Erzeugung des gesamten Bildes identifiziert werden. Diese können den Stufen des Verschmelzungsprozesses zugeordnet werden:
    • – Prägnanz: Die Funktion σ 818 und 820 der zugehörigen Wiedergabe im Skalierungsraum des Bildes, in welchem die Prägnanz identifiziert werden kann, bilden zwei der Auswahlen, welche den Typ der Verbesserung bestimmen können. Diese Stufe kann auch mehr als eine einzelne Funktion enthalten bei Verwendung unterschiedlicher Komponenten für die Prägnanzmaß stäbe für unterschiedliche zu verschmelzende Bilder, oder unterschiedliche Prägnanzmaßstäbe für ein einzelnes Bild, was zu der Erzeugung von mehr als einer Prägnanzpyramide für jedes Bild führt.
    • – Auswahl: Die Wahl der Funktion δ 826 hängt von der vorherigen Wahl von σ ab, und, wie oben diskutiert, kann die erzeugte Zuordnung zum Bilden der Maske M 828 von zusätzlichen Parametern abhängen.
    • – Rekonstruktion: Eine der Komponenten, die variieren können, ist die Auswahl der Basisfunktion β, was beeinflußt, wie die Rekonstruktion auf dem höchsten Niveau der Pyramide ausgeführt wird.
  • Die oben dargelegte Flexibilität verleiht dem Verschmelzungsprozeß die Fähigkeit, mehrere Verbesserungseffekte auszudrücken. Nachdem die Übersicht über den Verschmelzungsprozeß abgeschlossen ist, konzentriert sich die Beschreibung der beispielhaften Ausführungsformen der Erfindung auf die Verschmelzung von Farbbildern.
  • Wie zuvor schon dargelegt, erfordert die Verschmelzung von Farbbildern eine Berücksichtigung der Tatsache, wie der Verschmelzungsvorgang ausgeführt wird. Insbesondere ist es wünschenswert zu berücksichtigen, wie die verschiedenen Ebenen bzw. Auszüge in einem Farbbild an dem Verschmelzungsprozeß teilhaben. Es kann viele verschiedene Arten von Farbbildwiedergaben geben und der Beitrag von jeder einzelnen Komponente hängt von der gewählten Wiedergabe und dem gewünschten Ergebnis ab.
  • Um ein besseres Verständnis der Wechselwirkung dieser Komponenten in Anbetracht eines speziellen Zusammenfügungseffekts zu erhalten, ist es zweckmäßig, die verwendeten Auswahlen beim Erzielen der Verbesserung für zwei beispielhafte Anwendungen zu beschreiben.
  • Für die Verbesserung von Bildern mit unterschiedlichen Brennweiten und unterschiedlichem Dynamikbereich kann die Farbbildwiedergabe als YUV gewählt werden. Diese Komponenten wurden ausgewählt, um Luminanz (Helligkeit), Sättigung und Farbton als Mittel zu betrachten, um die gewünschten Effekte in dem zusammengesetzten Bild zu charakterisieren.
  • Im Falle des Erzeugens eines Einzelbildes mit einer großen Tiefenschärfe (d. h. mit der besten Brennebene in allen Teilen des Bildes) ist es wünschenswert, daß die strukturellen Details des Bildes betont werden, während die Farbe und ihre Sättigung erhalten bleiben. Die Luminanz bzw. Helligkeit ist der Bestandteil, der beim Übergang zu einem zusammengesetzten Bild, bei welchem alle Teile in der Brennebene sind, am meisten hervorsticht. Wenn der Dynamikbereich des Sensors erweitert wird, ist es andererseits wünschenswert, sowohl die Luminanz als auch die Sättigung in dem Auswahlprozeß zu berücksichtigen. Dieses Kriterium wird bestimmt durch den Beitrag, den sowohl die Luminanz als auch die Sättigung zu dem Dynamikbereich eines Farbbildes liefern.
  • Wenn eine der Komponenten in der Prägnanz und in dem Auswahlprozeß vorherrschend ist, so kann die durch die vorherrschende Komponente erzeugte Pyramidenmaske verwendet werden, um die anderen Komponenten einzumischen. Diese Wahl stellt sicher, daß jedes Pixel in dem Bild durch einen Vektor wiedergegeben wird und daß beide Farbkonsistenzkriterien, die zuvor skizziert wurden, erfüllt sind. Dann kann der Mischungsvorgang, hart oder weich, die angegebene Maske verwenden, um die anderen Bänder zu kombinieren.
  • In der YUV-Wiedergabe entspricht Y der Luminanz bzw. Helligkeit des Bildes. Typischerweise hat die Luminanz-Komponente des Bildes eine größere Bandbreite als jede der Farbunterschiedskomponenten U oder V. Demnach beruhen sowohl die Prägnanz- als auch die Auswahlfunktionen, die verwendet werden, um ein verschmolzenes Bild zu erzeugen, welches die beste Tiefenschärfe hat, auf der Laplaceschen Pyramide der Y-Komponenten. Da die Bilder ähnliche Sättigung und ähnlichen Farbton haben, wird der Beitrag von beiden Bildern für die U- und die V-Komponente auf der Basis der Zuordnung gemischt, die unter Verwendung der Y-Komponenten der beiden Bilder bestimmt wird.
  • Ein beispielhaftes Verfahren für die Verschmelzung zweier Farbbilder unter einer Brennpunktvariation der Auswahlen für die Funktionen wird in 9 wiedergegeben.
  • Der erste Schritt in 9, der Schritt 910, richtet die Bilder an einem gemeinsamen Koordinatensystem aus. Dies ist wünschenswerterweise das Koordinatensystem des letzten Bildes in der Sequenz. Dementsprechend wird in der in 9 dargestellten beispielhaften Ausführungsform das letzte Bild als das Bezugsbild ausgewählt. Die Ausrichttechnik, die verwendet wird, kann eine parametrische Transformation sein, wie es in Schritt 910 dargestellt ist, oder sie kann das Berechnen eines Bewegungsstromfeldes für jedes Bild relativ zu dem Bezugsbild und dann das Verformen jedes Bildes auf das Bezugskoordinatensystem umfassen. Der nächste Schritt in dem Prozeß, der Schritt 912, baut die Laplacesche Pyramide für die Luminanz-Komponente der Bildsequenz auf. Als nächstes baut Schritt 914 Gaußsche Pyramiden für die U- und V-Komponenten jedes der Bilder auf. Dann wendet Schritt 916 die Prägnanzfunktion auf alle Luminanz-Pyramiden an, um entsprechende Prägnanzpyramiden zu erzeugen. In Schritt 918 wählt die Auswahlfunktion die sowohl in den Luminanz- als auch in den Chrominanz- (U- und V-) Pyramiden zu vermischenden Merkmale aus unter Verwendung einer harten Mischung auf der Basis der Luminanz-Prägnanzpyramiden. Diese Auswahlfunktion wird auf alle Ebenen der Pyramide angewendet mit Ausnahme des Pyramidenniveaus N, welches das Bild mit der niedrigsten Auflösung repräsentiert. Das Pyramidenniveau wird in den Schritten 920 und 922 gemischt. Schritt 920 mischt das Niveau N der Luminanz-Pyramiden durch harte Mischung der Gaußschen Bilder unter Verwendung der Maske vom Niveau N-1, welche geglättet und abgeschwächt ist. Schritt 922 vermischt das Niveau N der Chrominanz-Pyramiden durch Durchschnittbildung der Gaußschen Bilder. Im abschließenden Schritt 924 wird das verschmolzene Bild rekonstruiert durch Rekonstruktion jeder der Y-, U- und V-Pyramiden.
  • 10 ist ein Flußdiagramm, welches den Vorgang des Verschmelzens von Bildern beschreibt, die unterschiedliche Information über den Dynamikbereich haben. Für diese Bilder sind sowohl die Luminanz- als auch die Sättigungsinformation relevant. Der beispielhaft dargestellte Vorgang geht von der Annahme aus, daß die Folge von Bildern in kurzer Zeit nacheinander aufgenommen wurde und daß deshalb die Farbe oder der Farbton in den Bildern näherungsweise konstant ist. Diese Annahme ist nicht unvernünftig, wenn die Aufgabe darin besteht, mehrere Bilder miteinander zu kombinieren, in welchen Bereichen der Szene, die abgebildet wird, in einem Bild zu schwach und in einem anderen Bild zu stark belichtet zu sein scheinen. Durch Variieren des Dynamikbereiches wird eine gewisse strukturelle Information aufgedeckt. Offensichtlich kann, wenn die Bilder über einen längeren Zeitraum hinweg aufgenommen wurden, der Farbton einer Veränderung ausgesetzt sein.
  • Demnach geht der in 10 dargestellte beispielhafte Prozeß von der Annahme aus, daß bei dem Verschmelzungsprozeß in dem Dynamikbereich der Farbton konstant bleibt, während Luminanz und Sättigung miteinander zusammenhängen bzw. variieren. Bereiche, die einen hohen Sättigungswert haben, beziehen sich auf Bereiche des Bildes, die überbelichtet sind und sehr hell erscheinen. Bereiche, die eine sehr niedrige Sättigung haben, beziehen sich auf Flächen, die dunkel sind. In beiden Fällen ist die Detailinformation schlecht. In Bereichen des Bildes, wo ein nennenswerter Kontrast vorliegt, tiefem die Luminanz-Daten ein gültiges Auswahlkriterium. Diese Feststellungen sind wichtig, weil sie ein Mittel für die Bestimmung der zu verwendenden Funktionen liefern.
  • Der erste Schritt in 10, der Schritt 1010, richtet alle Bilder in der Bildfolge auf ein Bezugsbild aus. Wie bei dem Vorgang mit der Tiefenschärfe ist das Bezugsbild für den beispielhaften Prozeß für den Dynamikbereich das letzte Bild in der Folge.
  • Nach dem Schritt 1010 baut der Schritt 1012 Laplacesche Pyramiden für die Luminanz- (Y-) Komponenten aller Bilder in der Sequenz auf. Gleichzeitig baut Schritt 1014 Gaußsche Pyramiden für die entsprechenden Chrominanz-Komponenten aller Bilder in der Folge auf. Als nächstes wendet Schritt 1016 die Prägnanzfunktion auf die Luminanz-Pyramiden an, um die Prägnanzpyramiden zu erzeugen, die verwendet werden, um die Bilder in der Folge zu verschmelzen.
  • In Schritt 1018 wird eine Auswahlfunktion mit harter Mischung auf der Basis der Luminanz-Prägnanzpyramiden angewendet, um die Kombinationsmasken sowohl für die Luminanz- als auch für die Chrominanz-Bildpyramiden zu erzeugen. Diese Mischungsfunktion wird auf alle Ebenen der Pyramiden mit Ausnahme des niedrigsten Auflösungsniveaus N angewendet.
  • Die N-Niveaus der Pyramiden sowohl für die Luminanz- als auch für die Chrominanz-Bildkomponenten werden in Schritt 1020 kombiniert. Dieser Schritt verwendet das Sättigungsniveau, wie es durch die Chrominanz-Pyramiden (U und V) angezeigt wird, um die N-Niveaus aller Luminanz-Chrominanz-Pyramiden zu kombinieren. Insbesondere sind die Abschnitte der N-Niveau-Pyramiden, die für die Kombination in Schritt 1020 ausgewählt wurden, diejenigen, welche Sättigungswerte haben, die am nächsten bei dem Mittelwert der Sättigungen aller Bilder in der Folge liegen. Schritt 1020 implementiert die oben beschriebene Basisfunktion β.
  • Nach Schritt 1020 ist die Laplacesche Pyramide für das zusammengesetzte Bild aufgebaut worden. In Schritt 1022 wird diese Pyramide verwendet, um das Ausgangsbild zu rekonstruieren. Wie oben beschrieben, hat dieses Ausgangsbild einen Dynamikbereich, welcher den Dynamikbereich irgendeines der Ausgangsbilder überschreitet. Das unter Bezug auf 10 beschriebene Verfahren arbeitet mit einer Sequenz von Bildern, die aus zumindest zwei Bildern besteht.
  • Auch andere Verfahren zur Verschmelzung sind möglich, welche andere Aspekte des Abbildungsvorgangs hervorheben. Beispielsweise kann eine Auswahlfunktion betrachtet werden, die die Sättigung eines Bildes maximal macht oder die einen bestimmten Farbtyp bevorzugt. Abhängig von den unterschiedlichen Zuordnungen, die für den Farbraum verwendet wurden (einschließlich, jedoch nicht beschränkt auf YUV und RGB), können andere Auswahl- und Prägnanzverfahren verwendet werden.
  • Eine dritte Bildverarbeitungstechnik betrifft das Verarbeiten mehrerer Bilder, die in dichter zeitlicher Folge von einer einzelnen Szene aufgenommen wurden, um das eine Bild auszuwählen, welches die geringste Bewegungsverzerrung zeigt. Menschliche Benutzer sehen sich häufig dem Problem gegenüber, scharfe Bilder zu erhalten, während sie sich bewegen und während sich die Kamera bewegt oder sonstwie unruhig ist. Wenn ausreichend Licht vorhanden ist, so ist es möglich, die Integrationszeit des Sensors abzusenken, bis die Artefakte aufgrund der Bewegungsverzerrung enttemt werden können. In einigen Fällen ist es jedoch schwierig, die Integrationszeit eines sich bewegenden Bildaufnehmers einzustellen, um ein Bild zu erhalten, das wünschenswerte Niveaus von Helligkeit und Kontrast hat, jedoch keine Bewegungsverzerrung bzw. -unschärfe aufweist.
  • In vielen Fällen ist die der Kamera aufgeprägte Bewegung sporadisch und zufällig. Diese sporadische Natur zeigt an, daß einige Videoeinzelbilder möglicherweise minimale Beträge an Bewegungsverzerrung haben, während andere Einzelbilder beträchtliche Beträge an Bewegungsverzerrung haben.
  • Die Idee hinter der Auswahl von Schlüsselbildern besteht einfach darin, das beste Bild aus einer Sequenz von Bildern auszuwählen. Das "beste" Bild wird üblicherweise definiert als dasjenige Bild, welches die gerngste Bewegungsverzerrung zeigt. Für irgendeine Folge von Einzelbildern hat ein Einzelbild in der Folge weniger Bewegungsverzerrung als irgendwelche anderen Einzelbilder und ist deshalb gegenüber allen anderen Bildern für die Speicherung und Darstellung vorzuziehen. Ein zufällig (oder durch den Benutzer willkürlich) ausgewähltes Bild hat keine garantierte Qualität, selbst nicht in einem relativen Sinn im Vergleich zu anderen Einzelbildern, die zu einem Zeitpunkt nahe der Zeit des Drückens der Blende bzw. des Verschlusses aufgenommen wurden.
  • Das Auswählen des Einzelbildes mit dem besten Brennpunkt kann bestimmt werden durch Vertolgen der gesamten Bildenergie für jedes Einzelbild und Auswählen desjenigen Einzelbildes mit dem höchsten Energieniveau. Es sei eine Laplacesche Pyramide eines gegebenen Videoeinzelbildes F(t) gegeben:
  • Figure 00280001
  • Das Energiemaß für dieses Einzelbild F(t) ist die Summe über jedes Pyramidenniveau der quadrierten Laplaceschen Werte.
  • Figure 00280002
  • Durch Analyse der Abweichungen der Bildenergie bei verschiedenen Auflösungen können die Einflüsse der Bewegungsverzerrung vertolgt werden. Insbesondere ist es in der Sequenz wünschenswert, dasjenige Bild auszuwählen, das die maximale Energie in allen Frequenzbändern hat, wobei der Vergleich beim niedrigsten Auflösungsniveau beginnt und bis zum höchsten Auflösungsniveau geht.
  • 11 ist ein Blockdiagramm eines beispielhaften Signalverarbeitungsschaltkreises, welches für die Verwendung bei der dritten Technik geeignet ist, welche automatisch ein Einzelbild aus einer Sequenz von Bildern auswählt, um die Bewegungsverzerrung in dem Bild der Szene minimal zu machen.
  • Wie in 11 dargestellt, ist ein Eingangsanschluß IN für die Aufnahme von Bilddaten von beispielsweise einem CCD-Abbildungsarray angeschlossen. Das beispielhafte (nicht dargestellte) Abbildungsarray liefert Einzelbilder von Bildinformation mit einer Geschwindigkeit von 30 Einzelbildern pro Sekunde. Die beispielhafte Ausführungsform der Erfindung, welche in 11 dargestellt ist, speichert aufeinanderfolgende Einzelbilder in jedem von fünf Einzelbildspeichem 1112, 1114, 1116, 1118 und 1120. Das Eingangssignal IN wird außerdem an einem Steuerprozessor 1110 angelegt, welcher das Eingangssignal überwacht, um zu bestimmen, wann ein neues Einzelbild bereitgestellt wird, und läuft zyklisch durch die Einzelbildspeicher 1112 bis 1120, um die neuen Bilder zu speichern.
  • Wenn jeder der Einzelbildspeicher 1112 bis 1120 ein Bild enthält, verarbeitet der Prozessor 1110 jedes der Bilder, um zu bestimmen, welches den geringsten Betrag an Bewegungsverzerrung hat. Dieser Vorgang wird unten unter Bezug auf 13 beschrieben. Die beispielhafte Ausführungsform umfaßt fünf lokale Speicher 1122, 1124, 1126, 1128, 1130, die verwendet werden, um temporäre Daten zu erhalten, wie z. B. die für jedes der Bilder in den fünf Einzelbildspeichem abgeleiteten Bildpyramiden. Wenn der Prozessor 1110 festgestellt hat, welches der in den Einzelbildspeichern 1112 bis 1120 gespeicherten Bilder den geringsten Betrag an Bewegungsverzerrung aufweist, so steuert er den Multiplexer 1132 so, daß er dieses Bild als das ausgegebene Signal OUT bereitstellt.
  • 13 ist ein Flußdiagramm, welches die Betriebsweise des in 11 dargestellten Schaltkreises zeigt. Um in der Lage zu sein, die Energie der verschiedenen Bilder zu vergleichen, ist es wünschenswert, daß die Energie über demselben Bereich der Szene ausgewertet wird. Demnach ist es vor der Energieberechnung wünschenswert, alle Bilder nach einem gemeinsamen Koordinatensystem auszurichten und einen gemeinsamen Bereich für die Bilder zu bestimmen, die verarbeitet werden.
  • Demnach dient der erste Schritt in dem Vorgang, der Schritt 1310, der Ausrichtung aller Bilder in den Einzelbildspeichem 1112 bis 1120 auf ein gemeinsames Koordinatensystem. In diesem Fall kann der beispielhafte Schaltkreis die Bilder in den Einzelbildspeichem 1112, 1114, 1118 und 1120 mit dem Bild ausrichten, das in dem Einzelbildspeicher 1116 gehalten wird. Wie oben unter Bezug auf die 9 und 10 beschrieben, kann das Ausrichtungsschema, welches verwendet wird, eine parametrische Ausrichtung oder eine Bildverzerrung auf der Basis des Strömungsfeldes sein.
  • Wenn die Bilder ausgerichtet sind, wird Schritt 1312 ausgeführt, um Laplacesche Pyramiden für die gemeinsamen Bereiche aller Bilder zu erzeugen. Schritt 1312 markiert auch alle Bilder als aktiv und setzt die Variable LV auf Null. Als nächstes berechnet Schritt 1314 einen Energiewert für jede der Pyramiden auf dem Auflösungsniveau LV. Dann vergleicht Schritt 1314 jeden dieser Energiewerte und setzt die Pyramiden, die auf dem Auflösungsniveau LV niedrige Energiewerte haben, auf inaktiv.
  • Bilder, die auf niedrigerem Niveau in der Pyramide unschart sind, enthalten weniger Energie und ihre Qualität nimmt auf höheren Niveaus in der Pyramide nicht zu. Dieses Kriterum ist ziemlich streng und ist auch Rauschen ausgesetzt, insbesondere wenn die Unschärfe nur auf dem höchsten Niveau des Bildes wahrgenommen wird. Demnach ist es wünschenswert, mehr als ein Bild vorzubringen und jedes Bild zu eliminieren, wenn dieses eindeutig stärker verzerrt bzw. unscharf erscheint als die anderen. Dieses Kriterium, welches die Bildauswahl leitet, beruht auf der tatsächlichen Verteilung der Bildenergie über die Bilder auf irgendeinem Niveau. Es kann folgendermaßen definiert werden: (mk,Max – mj,k) < σk,Max∙ρk, j = 1...Mk und Mk = |Vk|, wobei k das Niveau in der Pyramide bezeichnet, Vk den Satz von Bildern bezeichnet, der auf dem Niveau k ausgewertet werden soll und Mk die betreffende Kardinalzahl ist mk,j und σk,j repräsentieren den Mittelwert und die Abweichung der Energie für das Bild und mk,Max und σ k,Max identifizieren die Parameter des Bildes mit der größten Energie für das Niveau k und ρk repräsentiert einen Normierungsfaktor. Aufgrund dieser Formulierung werden diejenigen Bilder, die einen Mittelwert haben, der in die Verteilung des Bildes mit der größten Energie für das Niveau k fällt, auf das nächste Niveau weiter mitgenommen.
  • Der Normierungsfaktor ρ bestimmt die Strenge der Kriterien und sein Wert sollte durch die Breite der Verteilungen auf dem niedrigsten Niveau charakterisiert sein. Es sei σk,Max = max{σk,i} mit i = 1...Mk, dann ergibt sich
    Figure 00300001
  • Dann ist der Satz von Bildern, die weitergegeben werden, definiert als Vk = {Fk,j|(mk,Max – mk,j) < σk,Max∙ρk, ∀j = 1...Mk-1} wobei Fk,j die kumulative Energie für das Bild j repräsentiert, berechnet von dem niedrigsten Niveau N bis zu dem und einschließlich des Niveaus k. Die Auswertung der Energie für ausgewählte Bilder auf dem nächsten Niveau in der Pyramide hängt von der Kardinalzahl von Vk und dem bearbeiteten Niveau ab. Wenn die Kardinalität von Vk = 1 ist, so ist das ausgewählte Bild bereits dasjenige mit dem geringsten Betrag an Unschärfe. Wenn die Kardinalität größer als 1 ist und das Niveau das höchste Niveau ist, so ist das Bild, welches die maximale Energie hat, dasjenige, welches die geringste Menge an Unschärfe hat. In jedem anderen Fall sollte die Auswertung auf dem nächsten Niveau der Pyramide für diejenigen Bilder fortgesetzt werden, die unter den oben eingestellten Aufbaubedingungen nicht eliminiert worden sind.
  • Gemäß 13 stellt der Prozeß bei Schritt 1316 fest, ob nur ein aktives Bild verbleibt. Wenn dies der Fall ist, so ist dieses Bild das Ausgangsbild und der Multiplexer 1132 wird durch den Prozessor 1110 so eingestellt, daß er das eine aktive Bild als das Ausgangssignal OUT bereitstellt. Wenn bei Schritt 1316 mehr als ein Bild aktiv ist, so wird Schritt 1320 ausgeführt. Schritt 1320 bestimmt, ob LV das Niveau des Pyramidenniveaus mit der höchsten Auflösung ist. Wenn dies der Fall ist, so wird Schritt 1322 ausgeführt, welcher das Bild ausgibt, das das größte aufgesammelte Energieniveau hat. Wenn bei Schritt 1320 LV nicht als das Niveau mit der höchsten Pyramide bezeichnet wird, so wird Schritt 1324 ausgeführt, welcher die Variable LV um einen Schritt heraufsetzt und die Steuerung an Schritt 1314 zurückgibt.
  • Der in 13 beschriebene Prozeß analysiert die fünf in den Einzelbildspeichern 1112 bis 1120 gespeicherten Bilder, um festzustellen, welches dieser Bilder die meisten Details auf jedem der Pyramidenniveaus hat und gibt dieses Bild aus. Die in den Speichern 1112 bis 1120 gespeicherten Einzelbilder können mit einer Rate bzw. Geschwindigkeit von 30 Einzelbildern pro Sekunde oder auch mit niedrigeren Einzelbildraten aufgenommen werden. Alternativ können die in den Einzelbildspeichern 1112 bis 1120 gespeicherten Einzelbilder durch einen Benutzer manuell ausgewählt werden, beispielsweise durch Drücken eines Verschlußknopfes, wodurch die Analyse der gehaltenen Bilder und die Auswahl des Bildes, welches die geringste Bewegungsunschärfe enthält, ausgelöst werden würde, indem der Benutzer beispielsweise den Verschlußknopf drückt und herabgedrückt hält.
  • 12 ist eine alternative Vorrichtung, die venrvendet werden kann, um ein Videohauptbild auszuwählen. Die in 12 gezeigte Vorrichtung hat Vorteile gegenüber der in 11 gezeigten insofern, als sie nur zwei Einzelbildspeicher 1112' und 1114' aufweist. Die in 12 gezeigte Vorrichtung verarbeitet Bilder der Reihe nach und vergleicht ein neues Bild mit einem gespeicherten Bild. In dieser Ausführungsform der Erfindung ersetzt ein neues Bild das gespeicherte Bild, wenn das neue Bild weniger Bewegungsunschärfe aufweist als das gespeicherte, und wird mit anschließend empfangenen Bildern verglichen. In dieser alternativen Ausführungsform ist dasjenige Bild, welches verbleibt, wenn der Bildaufnahmevorgang vollendet ist, dasjenige Bild, welches die geringste Bewegungsunschärfe aller Bilder hat, die erfaßt wurden. Der Einzelbildauswahlvorgang, der mit der in 12 gezeigten Vorrichtung verwendet wird, wird durch das Flußdiagramm wiedergegeben, welches in 14 gezeigt ist.
  • Der erste Schritt in diesem Prozeß, der Schritt 1410, besteht darin, das erste empfangene Bild als das Bezugsbild zu speichern. In Schritt 1412 wird ein neues Bild empfangen und der Prozeß richtet das neue Bild mit einem Bezugsbild aus unter Verwendung entweder einer parametrischen Transformation oder einer Verformung auf der Basis eines Strömungsfeldes, wie es oben beschrieben wurde. Wenn die Bilder ausgerichtet sind, bestimmt Schritt 1412 auch die gemeinsamen Bildflächen. Schritt 1414 erzeugt dann Laplacesche Pyramiden für die gemeinsamen Flächen in jedem der Bezugsbilder und neu empfangenen Bilder. Schritt 1416 berechnet dann Energiewerte für alle Pyramidenniveaus in beiden Bildern und erzeugt ein Maß des Energieniveaus in jeder Pyramide. Dieses Energieniveau kann beispielsweise eine einfache Summe der Energiewerte auf jedem der Pyramidenniveaus sein oder es kann eine gewichtete Funktion der Energie auf jedem Niveau sein.
  • In Schritt 1418 bestimmt der Prozeß, ob der Verschluß freigegeben worden ist. Wenn dies der Fall ist, wird Schritt 1420 ausgeführt, welcher das aktuelle Bezugsbild als dasjenige Bild ausgibt, das die beste Brennebene aller verarbeiteten Bilder hat, seit der Verschluß herabgedrückt wurde. Wenn in Schritt 1418 der Verschluß noch nicht freigegeben wurde, wird Schritt 1422 ausgeführt, welcher bestimmt, ob das Energieniveau des neuen Bildes größer ist als das des Bezugsbildes. Wenn dies der Fall ist, wird Schritt 1424 ausgeführt, welcher das Bezugsbild durch das neue Bild ersetzt und die Steuerung kehrt zu Schritt 1412 zurück. Wenn in Schritt 1422 die Energie des neuen Bildes nicht größer war als die Energie des Bezugsbildes, geht die Steuerung zu Schritt 1412 zurück, ohne daß das Referenzbild verändert wird, um das nächste empfangene Bild mit dem Referenzbild zu vergleichen.
  • Der in 14 dargestellte Prozeß erzeugt ein Bild aus einer Sequenz von Bildern, welches die geringste Bewegungsunschärfe in gemeinsamen Bereichen aller Bilder zeigt, die verarbeitet werden. In einer alternativen Ausführungsform der Erfindung können die Laplaceschen Pyramiden des gesamten Bildes unabhängig von den gemeinsamen Bereichen gebildet werden und die Bilder können verglichen werden, um zu bestimmen, welches den geringsten Betrag an Unschärfe aufweist. In dieser alternativen Ausführungsform kann die Bildinformation sich verändern, wenn die Kamera bezüglich der Szene bewegt wird. Das Ausgangsbild, welches erzeugt wird, ist jedoch dasjenige Ausgangsbild, welches die geringste Bewegungsunschärfe aller Bilder zeigt, die aufgenommen bzw. eingefangen wurden, während der Verschluß gedrückt war.
  • Eine vierte Bildverarbeitungstechnik betrifft die Verarbeitung mehrerer Bilder, die von einer schlecht beleuchteten Szene aufgenommen wurden, um ein einzelnes Bild zu erzeugen, welches eine größere Helligkeit und einen größeren Kontrast als irgendeines der Bilder hat, aus welchen es zusammengesetzt ist. Standardmäßige Abbildungssensoren, wie z. B. CCD-Arrays, beruhen auf der Integration des auf das Sensorarray auftreffenden Lichts an unterschiedlichen Positionen des Sensors. Demnach kann, unter der Annahme, daß das Licht, welches auf das Sensorarray fällt, durch eine Funktion von f(x, y, t) beschrieben wird, das Ausgangspixel an jeder Position in dem Sensorarray durch die Beziehung beschrieben werden
    Figure 00330001
    wobei I die Integrationszeit für den Sensor bezeichnet. Es sei für die Zwecke dieser Diskussion angenommen, daß die Funktion Fsensor(x, y, t) eine diskrete Funktion der Variablen x, y und t ist, die Szenenbeleuchtungsfunktion f(x,y,t) bezüglich der räumlichen Variablen x und y diskret, bezüglich der Zeitvariablen t jedoch kontinuierlich ist. Obwohl dies ein übermäßig vereinfachtes Modell für ein Sensorarray ist, reicht es für die vorliegende Diskussion aus.
  • Unter Bedingungen von schwachem Licht kann die Integrationszeit I erhöht werden, und ermöglicht demnach, daß durch jedes Pixel in dem Sensorarray mehr Licht aufgesammelt wird. Wenn jedoch I zu groß ist, tritt eine Schleierbildung und Sättigung auf. Wenn I zu klein ist, erscheint die Szene übermäßig dunkel.
  • Andere Modifikationen können an dem Abbildungsprozeß vorgenommen werden, um die Menge an Licht, die auf das Sensorarray auftrifft, zu vergrößern. Das Einstellen der Aperturgröße des Sensors bewirkt beispielsweise, daß die Menge an auf den Sensor auftreffendem Licht vergrößert wird und vergrößert damit die Größe von f(x,y,t). Es gibt jedoch physikalische Beschränkungen in der Optik, die den Betrag begrenzen, um welchen die Apertur geöffnet werden kann.
  • Wenn der Sensor sich relativ zu der abgebildeten Szene bewegt, bewirkt die Bewegung, welche während der Integrationszeit I auftritt, daß die Pixelwerte über unterschiedliche räumliche Bereiche der Szene integriert werden. Mit anderen Worten, die Szenefunktion f(x,y,t) kann, wenn der Sensor sich bewegt, beschrieben werden als
    Figure 00330002
    wobei x(u) und y(u) die zeitvariablen Funktionen der Position aufgrund der Bewegung der Relativbewegung zwischen Sensor und Szene repräsentieren. Dies führt schließlich zu den Bewegungsunschärteeffekten, die man im allgemeinen in Videos bei sich bewegenden Kameras sieht.
  • Wenn der Sensor sich bewegt und die Szene relativ kleine Mengen an Licht enthält (beispielsweise in der Dämmerung oder zu Zeiten mit geringem Kontrast in der Szene), so ist es unmöglich, ein helles, kontrastreiches Bild der Szene ohne Unschärfe zu erhalten. Dies liegt daran, daß die Integrationszeit I nicht vergrößert werden kann, ohne Unschärfe zu verursachen, und die Menge an Licht, die durch jeden Pixelwert integriert wird, proportional mit der Integrationszeit abnimmt, wodurch eine Verdunklung der Szene bewirkt wird, wenn die Integrationszeit abgesenkt wird, um die Bewegung der Kamera zu kompensieren.
  • Statt sich auf den Sensor zu verlassen, der für jedes Pixel Licht integriert, ist es möglich, diesen Integrationsschritt durch elektronische Verarbeitung durchzuführen. Es sei nun angenommen, daß die Integrationszeit I derart gewählt wird, daß die Bewegungsunschärfe in der Szene sehr klein ist, während der Sensor sich bewegt. Wenn die Lichtniveaus unzureichend sind, so wird das resultierende Sensorbild
    Figure 00340001
    dunkler sein als gewünscht. Um die Helligkeit und den Kontrast der Szene zu verstärken, können die Einzelbilder von dem Sensor zeitlich mit einer Funktion wie z. B.
    Figure 00340002
    akkumuliert werden.
  • Das resultierende, verbesserte bzw. verstärkte Bild F'sensor(x, y, t) hat eine erhöhte Helligkeit, die durch die Kardinalität (den Zahlenwert) von N gegeben ist, welche die Anzahl früherer Einzelbilder beschreibt, die verwendet wurden, um die verbesserten Bildergebnisse des aktuellen Einzelbildes aufzusummieren. Wenn N beispielsweise mit dem Wert 10 gewählt wird, hat das resultierende Einzelbild F'sensor(x, y, t) näherungsweise das Zehnfache der Helligkeit des ursprünglichen Einzelbildes Fsensor(x, y, t).
  • Damit die aufsummierten Bilder einander in angemessener Weise verstärken, ist es wünschenswert, die Bilder vor der zeitlichen Akkumulation der Einzelbilder Fsensor(x, y, t) registerhaltig auszurichten. In der beispielhaften Ausführungsform der Erfindung werden, da der Sensor sich während des Integrationsintervalls, welches für die Aufsummierung von F'sensor(x, y, t) erforderlich ist, in Bewegung befindet, die Videoeinzelbilder in der Weise ausgerichtet, daß Pixel in dem Rahmen, die sich für Fsensor(x, y, t) innerhalb des Intervalls t-N bis t ergeben, mit einer Genauigkeit unterhalb der Pixelgröße ausgerichtet sind. In der Literatur sind viele Verfahren bekannt, um eine Bildausrichtung und -verzerrung bzw. -umformung mit einer Genauigkeit unterhalb der Pixelgenauigkeit zu bestimmen, und diese Verfahren sind beispielsweise in einem Paper von M. W. Hansen et al. beschrieben mit dem Titel "Realtime scene stabilization and mosaic construction", Proceedings of the Workshop on Applications of Computer Vision, Sarasota, FL, 1994.
  • 15 ist ein Flußdiagramm, welches ein beispielhaftes Verfahren zum Verlängern der Integrationszeit eines Bildes veranschaulicht, ohne daß das Bild einer Bewegungsunschärfe oder Schleierbildung ausgesetzt ist. Das in 15 dargestellte Verfahren kann unter Verwendung von Verarbeitungshardware implementiert werden, die in 12 dargestellt ist. Der erste Schritt in dem in 15 dargestellten Prozeß, der Schritt 1510, speichert das erste Bild, welches als das Referenzbild empfangen wird. Als nächstes wird in Schritt 1512 eine lokale Variable I auf 1 gesetzt. Die Variable I wird schrittweise von 1 bis auf N heraufgesetzt, um die Anzahl von Bildern, die kombiniert werden, um das verschmolzene Bild zu bilden, zu begrenzen. Als nächstes wird in Schritt 1514 ein neues Bild erhalten und mit dem Referenzbild ausgerichtet. In Schritt 1516 werden die gemeinsamen Teile des ausgerichteten Bildes in das Referenzbild integriert, um ein neues Referenzbild zu bilden. In Schritt 1518 bestimmt der Prozeß, ob I größer oder gleich der maximalen Anzahl von zu integrierenden Einzelbildern, N, ist und, wenn dies der Fall ist, so wird in Schritt 1520 das integrierte Referenzbild ausgegeben. Wenn in Schritt 1518 I als kleiner als N festgestellt wird, so wird in Schritt 1522 I um einen Schritt heraufgesetzt und die Steuerung kehrt zurück zu 1514, um ein neues Bild zu erhalten, um dieses mit dem Referenzbild auszurichten und in dieses zu integrieren.
  • Eine fünfte Bildverarbeitungstechnik bezieht sich auf ein Signalverarbeitungsverfahren, welches mehrfache Bilder verwendet, die von einer Szene aufgenommen wurden, um die Effekte von Störungen des optischen Pfades zu reduzieren, wie sie beispielsweise auftreten können, wenn das Bild durch beträchtliche thermische oder atmosphärische Variationen hindurch betrachtet wird. Wie oben dargelegt, wird diese Art der Verzerrung hier als Szintillationsverzerrung bezeichnet. Szintillationskorrektur beinhaltet das Beseitigen von Verzerrungen, die durch optische Pfadstörungen der betrachteten Szene begründet sind, wie z. B. atmosphärische Störungen. Ohne Szintillationskorrektur ist es schwierig, eine hochauflösende Wiedergabe der Szene zu erhalten.
  • Die Szintillationsverzerrung kann näherungsweise durch ein lokales Translationsbewegungsfeld wiedergegebeb werden, welches zeitlich variiert und welches mit d (x,y,t) bezeichnet wird, wobei x und y die Position des Stromvektors in dem Videoeinzelbild F(t) bezeichnen und t den Zeitpunkt der Bildgewinnung bezeichnet.
  • Es ist möglich, das Verschiebungsfeld d (x,y,t) unter Verwendung einer Anzahl verschiedener Verfahren abzuschätzen, einschließlich irgendeines Verfahrens, welches generell für optische Strömungsberechnungen anwendbar ist. Ein Verfahren zum Berechnen dieses Verschiebungsstromes besteht darin, für das Verschienbungsfeld eines Lösung nach kleinsten Schwankungsquadraten zu suchen, wobei die objektive Funktionsweise definiert wird als Suche nach dem Verschiebungsfeld d (x,y,t), die die Fehlergröße E(t) minimal macht, welche gegeben ist durch
    Figure 00350001
  • In dieser Gleichung bezeichnet der Wert d (x,y,t) die horizontale Komponente des Verschiebungsfeldes, d (x,y,t) bezeichnet die vertikale Komponente des Verschiebungsfeldes und W bezeichnet einen Integrationsfensterbereich, der lokal im Bereich der Bildposition (x,y) liegt.
  • Die Lösung dieser Gleichung kann, wenn man angemessene lineare Annäherungen annimmt, dargestellt werden als
    Figure 00360001
    wobei Fx(x, y, t) definiert ist als die horizontale partielle Ableitung des Einzelbildes F(t), Fy (x, y, t) die partielle Ableitung des Einzelbildes F(t) und Fx(x, y, t) die partielle Ableitung der Einquenz bezüglich der Zeit ist, die durch die Beziehung Ft(x, y, t) = F(x, y, t) – F(x, y, t-1)angenähert werden kann.
  • Die Abschätzung dieses Strömungsfeldes kann dann, soweit erforderlich, verfeinert werden diese Lösung unter Verwendung hierarchischer Methoden iteriert wird.
  • Diese Verschiebungsfelder beschreiben die Verzerrung, die zwischen zwei Videoeinzelbildem auftritt. Demnach beschreibt, wenn F(t) und F(t-1) gegeben sind, das Verschiebungsfeld
    Figure 00360002
    die Verzerrung zwischen den beiden Videoeinzelbildern. Demnach ist es durch Berechnen der Verzerrungsfelder über der Zeit und durch Kaskadierung dieser Verschiebungsfelder möglich, die Verzerrungen zu beseitigen und eine stabile Ansicht mit reduzierter Szintillationsverzerrung zu erzeugen.
  • Auch wenn dieses Verfahren die Verzerrung beseitigt, beschreibt es nicht die Verzerrung zwischen irgendeinem Videoeinzelbild und der wahren Ansicht der Szene ohne Verzerrung. Um den Szeneninhalt ohne Verzerrung zu bestimmen, wird ein Referenzeinzelbild Fref abgeschätzt, welches keinerlei Verzerrung enthält, wobei das Verzerrungsfeld zwischen dieser Referenz und dem aktuellen Einzelbild berechnet wird und dann das aktuelle Bild mit dem inversen Verzerrungsfeld verzerrt wird, um jegliche Szintillationsverzerrung in dem aktuellen Bild effektiv zu beseitigen.
  • 16 ist ein Flußdiagramm, welches die Verarbeitung einer Sequenz von Bildern veranschaulicht, um Szintillationsverzerrung von den Bildern zu entfernen. Der erste Schritt in dem Prozeß, der Schritt 1610, speichert das erste Bild als das Referenzeinzelbild Fref, setzt das Verschiebungsfeld auf Null setzt eine schrittweise steigende Variable, I, auf Eins. Schritt 1612 nimmt ein neues Bild auf und berechnet das Verschiebungsfeld d (x,y,t) des neuen Bildes bezüglich des Referenzbildes. In Schritt 1614 wird das Verschiebungsfeld, welches in Schritt 1612 berechnet wurde, mit dem kombinierten Verschiebungsfeld, DF (d.h. d (x,y)) addiert. In Schritt 1616 bestimmt der Prozeß, ob die Schrittvariable I größer oder gleich der Maximalzahl N von zu verarbeitendern Bildern ist. Wenn dies der Fall ist, teilt Schritt 1620 das kombinierte Verschiebungsfeld DF durch N (d.h. es berechnet
    Figure 00360003
    Schritt 1622 verzerrt dann das Referenzfeld unter Verwendung des Verschiebungsfeldes DF (d. h.
    Figure 00370001
    ). In Schritt 1624 wird das Referenzbild als das Ausgangsbild bereitgestellt.
  • Wenn jedoch in Schritt 1616 die Schrittvariable I kleiner als N war, so wird sie in Schritt 1618 heraufgesetzt und die Steuerung wird an Schritt 1612 zurück übergeben, um das nächste Bild in der Sequenz zu erhalten und zu verarbeiten.
  • Der in 16 dargestellte Prozeß nimmt N Bilder auf und verarbeitet diese, um den Durchschnitt ihrer Verschiebungsfelder zu bilden und damit jegliche Bildbewegung zu entfernen, die in der Sequenz von Bildern um einen Mittelwert herum variiert.
  • Dieser Vorgang kann in einen Prozeß umgestaltet werden, welcher kausal ist und der kontinuierlich über die Zeit abgeschätzt wird. Dies kann implementiert werden durch einfaches Neudefinieren der Variablen in dem obigen Summationsterm, um frühere Videoeinzelbilder für ein gegebenes Bezugsbild aufzusummieren, anstatt Einzelbilder in der Zukunft aufzusummieren, und die berechneten Strömungsfelder zu kaskadieren. In ähnlicher Weise kann die lineare Durchschnittbildung des Strömungsfeldes durch einen anderen Abschätzungsprozeß ersetzt werden, wie z. B. durch Filter mit unbegrenztem Impulsansprechverhalten oder durch ausgeklügeltere Abschätzungsprozesse.
  • 17 ist ein Flußdiagramm einer alternativen Einrichtung zur Entfernung der Szintillationsverzerrung, welche Filter vom Typ mit unbegrenztem Im ulsans rechverhalten IIR verwendet um das durchschnittliche Verschiebungsfeld
    Figure 00370002
    zu berechnen. Der erste Schritt in dem in 17 dargestellten Prozeß, der Schritt 1710, speichert das erste Bild als das Referenzbild, und setzt das durchschnittliche Verschiebungsfeld, DF, auf Null und setzt die schrittweise heraufzusetzende Variable I auf Eins. In Schritt 1712 wird ein neues Bild aufgenommen bzw. erhalten und das Verschiebungsfeld des neuen Bildes bezüglich des Referenzbildes wird berechnet. In Schritt 1714 wird das berechnete Verschiebungsfeld, welches in Schritt 1712 erzeugt wurde, zu dem Referenzverschiebungsfeld, DF, hinzuaddiert. In Schritt 1716 bestimmt der Prozeß, ob die schrittweise heraufzusetzende Variable I größer oder gleich zwei ist. Wenn dies der Fall ist, so teilt Schritt 1718 jeden Gegenstand in dem Referenzverschiebungsfeld, DF, durch zwei. Wenn in Schritt 1716 I nicht größer als oder gleich zwei ist oder nach Schritt 1718 wird der Schritt 1720 ausgeführt, welcher die Variable I um einen Schritt heraufsetzt. In Schritt 1722 bestimmt der Prozeß, ob die schrittweise heraufzusetzende Variable I größer als eine maximale Einzelbildzahl N ist. Wenn dies der Fall ist, wird Schritt 1724 ausgeführt, der das Referenzbild unter Verwendung des Verschiebungsfeldes DF verzerrt. In Schritt 1726 wird das verzerrte Referenzbild als das Ausgangsbild bereitgestellt und die Steuerung kehrt zurück zu Schritt 1710, um das nächste Bild in der Bildfolge zu erhalten und zu verarbeiten. Wenn jedoch in Schritt 1722 die schrittweise heraufgesetzte Variable I Inicht größer als oder gleich der maximalen Anzahl von Einzelbildern war, so kehrt die Steuerung zurück zu Schritt 1712, um das nächste Bild aufzunehmen. Der in 17 dargestellte Prozeß kann beispielsweise mit einer Videokamera verwendet werden, die eine hohe Einzelbildrate bzw. -geschwindigkeit (beispielsweise 300 Einzelbilder pro Sekunde) hat, um ein Videosignal mit einer Standardrate zu erzeu gen, in welchem die einzelnen Bilder in der Folge bezüglich Szintillationsverzerrung kompensiert sind.
  • Die Leistungsfähigkeit dieses Prozesses hängt von der Beobachtung ab, daß das momentane Verzerrungsfeld
    Figure 00380001
    ein Prozeß mit dem Mittelwert Null ist, d. h.
    Figure 00380002
    . Die experimentelle Untersuchung tatsächlicher Daten zeigt, daß Szintillationsverzerrung, welche durch atmosphärische Störungen verursacht wird, in der Tat durch eine Verteilung mit dem Mittelwert Null approximiert werden kann.
  • Eine charakteristische Eigenschaft dieses Verfahrens ist das Beseitigen der Bewegung von sich bewegenden Objekten in der Szene. Die oben skizzierten Prozesse gehen von der Annahme aus, daß sämtliche Bewegung in der Szene eine Zufallsbewegung ist, welche Szintillationsverzerrung hervorruft. Damit eine Bewegung in der Szene abgebildet wird, kann eine maximale Verschiebungsgröße für
    Figure 00380003
    festgelegt werden. Wenn die Verzerrung in einem Bereich des Bildes sich als größer herausstellt als die maximale Größe, so kann angenommen werden, daß dieser Bereich des Bildes durch Bewegung charakterisiert ist und für diesen Bereich wird dann keine Verzerrungskorrektur ausgeführt.
  • Eine sechste Bildverarbeitungstechnik betrifft ein Verfahren zum Verbessern der Qualität der Bilder in einer Videosequenz, wobei unterschiedliche Teile der Bilder in der Sequenz Verzerrung oder Rauschen zeigen. Traditionell ist, wenn Bereiche des Bildes außerhalb der Brennebene liegen, die Szene so verarbeitet worden, daß die individuellen Einzelbilder schärfer gemacht wurden, indem beispielsweise die Einzelbilder durch einen Aperturfilter verarbeitet wurden. Die Verbesserung der Bildqualität, die man durch diese Schritte erreicht, ist jedoch begrenzt. Das vorliegende Verfahren befaßt sich mit diesem Problem in einer Art und Weise, welche dramatische Verbesserungen in der Bildqualität für Bildsequenzen ermöglicht, die unterschiedliche Niveaus an Verzerrung zeigen.
  • Allgemein gesprochen besteht der Ansatz darin, ein Einzelbild zu verbessern durch 1) Verfolgen entsprechender Merkmale in benachbarten bzw. aufeinanderfolgenden Einzelbildern, 2) Auswählen spezieller Merkmale (oder Kombinationen von Merkmalen) aus benachbarten bzw. aufeinanderfolgenden Bildern, die für die Anzeige am besten geeignet sind, 3) Anzeigen der Merkmale, die in dem Koordinatenrahmen des aktuellen Bildes der Sequenz verzerrt oder verschoben sind.
  • Rauschen bei einer Abbildung ist einer der wichtigsten Gründe für eine schlechte Bildqualität. Rauschen kann auf verschiedene Weisen charakterisiert werden. Beispiele umfassen das Rauschen der Intensität und das räumliche Rauschen. Wenn ein Intensitätsrauschen auftritt, kann das beobachtete Bild modellhaft wiedergegeben werden als ein unverfälschtes Bild, welches Intensitäten hat, die durch ein additives und/oder multiplikatives Signal einer Rauschverteilung verdorben sind. In einigen Fällen ist dieses Rauschen ziemlich gleichförmig über das Bild verteilt und in anderen Fällen tritt das Rauschen in isolierten Bereichen des Bildes auf. Wenn ein räumliches Rauschen auftritt, können Teile oder Merkmale in dem Bild verschoben oder verzerrt sein. Ein Beispiel dieses zweiten Typs von Rauschen ist die Linienverzerrung, bei welcher der vertikale Bestandteil von Linien in dem Bild horizontal versetzt ist, was dazu führt, daß die Linie im Verlaufe der Zeit schwankt bzw. flackert.
  • Dieser Typ von Rauschen in einer Videosequenz kann unter Verwendung der oben beschriebenen Technik zur Erzeugung von Einzelbildern beträchtlich abgeschwächt werden. In den nachstehend beschriebenen Ausführungsformen der Erfindung werden Bilder, welche ein ausgewähltes Bild in der Sequenz umgeben, verwendet, um das ausgewählte Bild zu verbessern und dann wird das nächste Bild in der Sequenz ausgewählt und der Vorgang wird für das neu ausgewählte Bild wiederholt.
  • Ein erster Schritt beim Entfernen von Rauschen aus den Einzelbildern einer Bildsequenz besteht darin, das Einzelbild mit dem ausgewählten Bild auszurichten. Die Einzelbildausrichtung kann unter Verwendung von irgendwelchen Methoden erreicht werden, die oben beschrieben wurden oder auch durch andere Verfahren. Sobald die Einzelbilder ausgerichtet sind, kann das Rauschen reduziert werden durch Verwenden der Kenntnis der zeitlichen Eigenschaften des Rauschens, um die Stärke des Rauschens zu reduzieren. Indem lokale Information von jedem Einzelbild kombiniert oder ausgewählt wird, um ein verbessertes Einzelbild zu erzeugen oder durch Modifizieren der Verarbeitung, die in einem lokalen Bereich in Abhängigkeit von einer lokalen Qualität der Ausrichtungsmetrik oder in Abhängigkeit von der lokalen räumlichen, zeitlichen oder zeitlichräumlichen Struktur des Bildes durchgeführt wird.
  • Ein beispielhaftes Verfahren zum Beseitigen von Rauschen, welches ein Intensitätsrauschen mit dem Mittelwert Null ist, besteht einfach in einer Durchschnittbildung der ausgerichteten Einzelbilder. Typischerweise bietet ein Fenster von neun Einzelbildern eine ausreichende zeitliche Basis, um Rauschen beträchtlich zu reduzieren, jedoch kann auch eine geringere oder größere Anzahl von Einzelbildern verwendet werden. Dieses Verfahren kann noch weiter verfeinert werden, um räumliches Rauschen zu entfernen, wie z. B. Linienverzerrung. In diesem Fall wird, nachdem die Abbildungen zeitlich ausgerichtet worden sind, ein nicht linearer Schritt ausgeführt, um diejenigen Momente zu erfassen, in welchen ein Teil eines Merkmals durch Rauschen verschoben oder verzerrt worden ist. Ein Beispiel eines nicht linearen Schrittes ist das Sortieren der Intensitäten an einer Pixelstelle, gefolgt von der Identifizierung und Unterdrückung von Intensitäten, die mit den anderen Intensitäten nicht konsistent sind. Ein spezielles Beispiel umfaßt die Unterdrückung der beiden hellsten und der beiden dunkelsten Intensitätswerte aus einem ausgerichteten Satz von elf Intensitäten. Die verbleibenden Intensitäten werden dann Bemittelt oder werden einem Vorgang einer Mittelwertfilterung ausgesetzt, um einen endgültigen Wert für das Pixel an dem Zielort zu erzeugen.
  • Diese Verfahren können selektiv nur mit denjenigen Merkmalen ausgeführt werden, die aus dem Bild (beispielsweise aus ebenen Flächen in dem Bild) gewonnen wurden, anstatt mit den Intensitäten selbst. Beispielsweise können Merkmale unter Verwendung von orientierten Filtern bzw. Richtungsfiltern gewonnen werden und Rauschen kann getrennt von den gefilterten Ergebnissen entfernt werden unter Verwendung der oben beschriebenen Verfahren. Die Ergebnisse können dann kombiniert werden, um ein einzelnes verbessertes Bild zu erzeugen.
  • Die individuellen Abbildungen können auch beispielsweise unter Verwendung einer Metrik der Qualitätsanpassung, wie z. B. einer lokalen Korrelation, gefiltert werden, um die Wirksamkeit der Bewegungsausrichtung zu bestimmen, bevor irgendeine Korrektur ausgeführt wird. Wenn die Metrik der Anpassungsqualität anzeigt, daß eine schlechte Ausrichtung erreicht worden ist, so kann das Bild oder können die Bilder, welche dem Fehler entsprechen, aus der Verarbeitung zur Verbesserung entfernt werden. Schließlich kann, falls man keine erfolgreiche Ausrichtung in einem Bereich in einem Satz von Einzelbildern erreicht hat, das ursprüngliche Bild unverändert belassen werden.
  • Die oben beschriebenen Verfahren führen eine Bildverbesserung relativ zu einem gemeinsamen Koordinatensystem unter Verwendung eines sich bewegenden Fensters oder einem Satz von Einzelbildern aus. Es können jedoch auch andere Verfahren verwendet werden, um die Abbildungen an einem gemeinsamen Koordinatensystem auszurichten. Ein Beispiel umfaßt ein sich bewegendes Koordinatensystem, wodurch ein Datensatz mit Zwischenverarbeitungsergebnissen, welches in dem Koordinatenrahmen des vorherigen Einzelbildes wiedergegeben wird, so verschoben wird, daß er in dem Koordinatensystem des aktuell analysierten Bildes liegt. Dieses Verfahren hat den Vorteil, daß es hinsichtlich der Berechnung effizienter ist, da die Einflüsse der Ergebnisse der vorherigen Bewegungsanalyse gespeichert werden und bei der Verarbeitung des aktuellen Einzelbildes verarbeitet werden. Dieses Verfahren wird unten unter Bezug auf 20 beschrieben.
  • Nach der Ausrichtung kann man räumliche Artefakte in dem Bild haben, beispielsweise Schimmern, wodurch Merkmale bzw. Objekte in dem verarbeiteten Bild zu szintillieren scheinen. Dieses Artefakt kann bewirkt werden durch geringfügige Fehler in der Ausrichtung, die lokal klein sind, die jedoch, wenn man sie über größere Bereiche betrachtet, ein erkennbares Schimmem hervorrufen. Dieses Artefakt kann durch verschiedene Verfahren beseitigt werden. Das erste besteht dann, räumliche Einschränkungen aufzuerlegen und das zweite Verfahren besteht darin, zeitliche Einschränkungen aufzuerlegen. Ein Beispiel einer räumlichen Einschränkung besteht in der Annahme, daß Objekte stückweise über Bereiche in dem Bild fest bzw. starr sind. Diese Bereiche können in ihrer Größe fixiert werden oder sie können in ihrer Größe und Form anpaßbar sein. Das Strömungsfeld kann innerhalb des Bereiches geglättet werden oder ein lokales parametrisches Modell kann an den Bereich angepaßt werden. Da jegliche Fehlausrichtung über den gesamten Bereich verteilt ist, vermindert diese Operation das Schimmern in dem Bild beträchtlich.
  • Ein Beispiel einer zeitlichen Beschränkung besteht in der Anpassung eines zeitlichen Modells an das Strömungsfeld. Beispielsweise beinhaltet ein einfaches Modell nur Beschleunigungs-, Geschwindigkeits- und Verschiebungsterme. Das Modell wird an das räumlich-zeitliche Volumen lokal so angepaßt, daß ein Strömungsfeld, welches nur diese Parameter hat, möglichennieise in seiner Größe begrenzt wird. Das resultierende Strömungsfeld an jedem Einzelbild folgt dem parametrischen Modell und demnach wird das Schimmern vermindert. Wenn eine Metrik der Qualität der Ausrichtung, welche über alle Einzelbilder berechnet wurde, jedoch eine schlechte Ausrichtung zeigt, so kann das parametrische Modell über weniger Einzelbilder berechnet werden, was zu einem Modell mit weniger Parametern führt. Im Grenzfall kann nur Translationsströmung in lokalen Einzelbildern berechnet werden.
  • Ein Beispiel des räumlichen Rauschens, wie es oben definiert wurde, ist die Inkonsistenz von Farbdaten mit Luminanz- bzw. Helligkeitsdaten. Beispielsweise kann ein Merkmal bzw. Gegenstand scharte Intensitätsgrenzen, jedoch nur schwach definierte Farbgrenzen haben. Ein Verfahren zum Schärferstellen dieser Farbgrenzen besteht darin, die Position der Intensitätsgrenzen zu verwenden, ebenso wie die Position der Bereiche innerhalb der Grenzen, um den Farbüberlauf zu vermindern. Dies kann unter Verwendung verschiedener Verfahren durchgeführt werden. Zunächst können die Bilddaten adaptiv verarbeitet oder gefiltert werden, je nach den Ergebnissen der Verarbeitung des Intensitätsbildes. Ein spezielles Beispiel besteht darin, eine Kantenerfassung des Intensitätsbildes auszuführen und die Verstärkung des Farbsignals in diesen Bereichen zu erhöhen. Ein weiteres Beispiel ist einfach die Verschiebung der Farbsignale bezüglich des Intensitätssignals, um eine bessere Ausrichtung zwischen den Signalen zu erreichen. Dies vermindert die räumliche Spannung zwischen den beiden Signalen. Die Ausrichtung kann unter Verwendung von Ausrichtungstechniken ausgeführt werden, die entwickelt worden sind für die Ausrichtung von Bildern verschiedener Sensoren, wie es beispielsweise in einem Paper von P. J. Burt offenbart wurde, welches den Titel trägt "Pattern Selective Fusion of IR and Visible Images Using Pyramid Transforms", National Symposium on Sensor Fusion, 1992. Ein weiteres Beispiel der Verarbeitung besteht in der Auferlegung von Einschränkungen nicht an den Grenzen von Intensitätsbereichen, sondern innerhalb der Grenzen von Intensitätsbereichen. Beispielsweise können kompakte Bereiche im Intensitätsraum erfaßt werden und Farbinformation, die für diesen kompakten Bereiche repräsentativ ist, kann aufgenommen bzw. abgetastet werden. Die Farbinformation wird dann nur dem kompakten Bereich hinzugefügt. Kompakte Bereiche können erfaßt werden unter Verwendung einer räumlichen Analyse, wie z. B. eines Aufspalt- und Verschmelzungsalgorithmus, oder durch morphologische Analyse.
  • Die oben beschriebenen Techniken können auch auf andere Bildverarbeitungsaufgaben angewendet werden, welche die sichtbare Qualität einer Folge von Bildern verbessern. Beispielsweise kann die gesamte Schärfe bzw. Brennweite, Tiefenschärfe oder Kontrast einer Bildfolge verbessert werden, indem jedes Bild in der Sequenz, wie es oben unter Bezug auf die 9 bis 17 beschrieben wurde, verarbeitet wird. Die Bildstabilisierung kann erreicht werden durch Verformung und Durchschnittbildung in der Sequenz von Bildern unter Verwendung eines sich bewegenden Koordinatensystems, welches durch ein beschränktes Verschiebungsfeld zwischen den Einzelbildern definiert wird. Dieses Verschiebungsfeld kann beispielsweise als ein zeitlicher Mittelwert der individuellen Verschiebungsfelder zwischen den Bildern für die Bilder in der Sequenz berechnet werden.
  • Diese Techniken können auch angewendet werden, um eine Verschachtelung eines Videobildes aufzuheben. Ein Problem bei der Umwandlung von Videodaten von einem Medium zu einem anderen besteht darin, daß die Geschwindigkeiten und Formate der Anzeigen unterschiedlich sein können. Beispielsweise wird bei der Umwandlung von VHS-Video in DVD die Eingangsgröße verschachtelt, während die Ausgangsgröße progressiv abgetastet wird, wenn sie auf einem Computerbildschirm betrachtet wird. Die Wiedergabe von verschachtelten Einzelbildern auf einem progressiv abgetasteten Monitor führt zu einer Abbildung, die sehr zerklüftet erscheint, da die Felder, die ein Videoeinzelbild bilden, gleichzeitig dargestellt werden. Es gibt verschiedene Ansätze, dieses Problem zu lösen. Das erste besteht darin, Bilder vertikal aufwärts abzutasten, so daß Einzelbilder erzeugt werden. Dies führt jedoch zu einer umgewandelten Bildsequenz, die eine scheinbar niedrigere vertikale Auflösung hat als die ursprüngliche verschachtelte Sequenz. Das zweite Verfahren besteht darin, die Bewegung zwischen Feldern zu entfernen, indem eine Ausrichtung ausgeführt wird, beispielsweise unter Verwendung der oben beschriebenen Ausrichtungsverfahren. Diese Technik kann eine verbesserte Bildauflösung selbst dann bereitstellen, wenn die Kamera statisch ist. In diesem Fall enthalten aufeinanderfolgende Felder Information, die vertikal um ein Pixel in dem Koordinatensystem des Einzelbildes verschoben ist oder ein halbes Pixel in dem Koordinatensystem des Feldes. Daher wird nach der Ausrichtung ein halbes Pixel vertikaler Bewegung zu dem Strömungsfeld hinzuaddiert und dann wird das Feld verschoben oder verformt. Ein vollständiges Einzelbild wird dann erzeugt durch Verschachteln eines Originalfeldes und des verformten Feldes.
  • 18 ist ein Flußdiagramm, welches einen Prozeß für das Verbessern einer Sequenz von Einzelbildern veranschaulicht, welche mit einer standardmäßigen Videorate auftreten. In Schritt 1810 werden N Eingangseinzelbilder in einem Speicher gespeichert. In Schritt 1812 wird das zentrale Einzelbild der gespeicherten Bilder als das Referenzbild ausgewählt. In Schritt 1814 berechnet der Prozeß das Verschiebungsfeld zwischen dem Referenzbild und jedem anderen der gespeicherten Bilder. Außerdem wird in Schritt 1814 jedes gespeicherte Einzelbild in Richtung des Referenzbildes verformt unter Verwendung des entsprechenden Verschiebungsfeldes. Die verformten Einzelbilder werden in einem Speicher oder in Speichern gespeichert, die von den gespeicherten Eingangsbildern getrennt sind, um die gespeicherten Eingangsbilder für eine spätere Verarbeitung aufzubewahren. In Schritt 1816 werden Merkmale von jedem der anderen Einzelbilder in das Referenzbild verschmolzen auf Basis ihrer relativen Prägnanz bzw. Erscheinungsstärke im Vergleich zu dem Referenzbild. Beispielhafte Verschmelzungsprozesse gemäß der vorliegenden Erfindung werden oben unter Bezug auf die 9 und 10 beschrieben. In Schritt 1818 gibt der Prozeß das verschmolzene Einzelbild heraus. Als nächstes verschiebt in Schritt 1820 der Prozeß die gespeicherten Einzelbilder um ein Einzelbild und speichert ein neues Einzelbild in den offenen Bildspeicher. Nach Schritt 1820 geht die Steuerung zurück zu Schritt 1812, um das zentrale Einzelbild der neu verschobenen Einzelbilder als nächstes Referenzeinzelbild zu verarbeiten. Unter Verwendung des in 18 dargestellten Verfahrens werden nur die Bilder in der Bildfolge verarbeitet und jedes Bild wird in seinem eigenen Koordinatensystem verarbeitet. Dies erhält die Bewegung und erhöht die Einzelheiten in jedem der Bilder, um eine verbesserte Videosequenz zu erzeugen.
  • 19 ist ein Flußdiagramm, welches eine alternative Version des in 18 dargestellten Prozesses zeigt. Die Schritt 1910, 1912, 1914 und 1920 sind mit den Schritten 1810, 1812, 1814 und 1820 identisch. In Schritt 1916 wendet der in 19 dargestellte Prozeß einen Mittelwertfilter auf eine Pixelposition auf alle gespeicherten, verformten Einzelbilder an, um einen Wert für das Pixel in dem Ausgangsbild zu wählen. In Schritt 1918 gibt der Prozeß das Mittelwerteinzelbild als das Ausgangsbild aus. Schritt 1918 kann auch andere Ausführungsformen der Auswahl und Kombination aufweisen. Alternative Versionen umfassen das Sortieren der Pixelintensität, das Unterdrücken einer oder mehrerer der kleinsten oder größten Intensitäten, die Durchschnittbildung der verbleibenden Intensitäten und das Bereitstellen des Ergebnisses als Ausgang des Prozesses. Eine alternative Version führt denselben Prozeß mit vorgefilterten Bildern durch anstatt mit den Intensitäten. Ein Beispiel eines vorgefilterten Bildes ist ein mit einem ausgerichteten Bandpass gefiltertes Bild. Ein bei spielhaftes Verfahren zum Erzeugen eines mit einem ausgerichteten Bandpass gefilterten Bildes wird in einem Text von Jae Lim beschrieben, welcher den Titel trägt "Two-Dimensional Signal and Image Processing", 1990, veröffentlicht von Prentice-Hall, Englelwood Cliffs, NJ.
  • Die in den 18 und 19 dargestellten Techniken haben N Videoeinzelbilder gespeichert und verarbeitet, um ein einzelnes Ausgangsbild zu erzeugen. 20 ist ein Flußdiagramm, welches einen alternativen Prozeß veranschaulicht, in welchem nur zwei Einzelbilder gespeichert werden. Der erste Schritt in diesem Prozeß, der Schritt 2010, speichert ein erstes empfangenes Bild als das Referenzbild. In Schritt 2012 wird ein neues Bild empfangen und das gespeicherte Referenzbild wird in das Koordinatensystem des neuen Bildes verzerrt bzw. verformt. In Schritt 2014 wird das neue Bild in das verformte Referenzbild verschmolzen auf der Basis der relativen Prägnanz von Bereichen in den beiden Bildern. In Schritt 2016 wird das verschmolzene Bild als das nächste Bild in der Sequenz ausgegeben und die Steuerung kehrt zurück zu Schritt 2012, um das nächste Bild in der Sequenz zu empfangen. Der durch das Flußdiagramm in 20 illustrierte Prozeß arbeitet als ein Filter mit unbegrenztem Impulsansprechen und kann verwendet werden, um das Rauschen in einem Bild zu reduzieren oder um momentane Ausreißer bzw. Aussetzer in der Brennebene oder eine momentane fehlende Sättigung von Farben in dem Bild zu kompensieren, die durch Veränderungen in der Beleuchtung verursacht werden. In jeder der oben unter Bezug auf die 18, 19 und 20 beschriebenen Techniken kann die Prägnanzfunktion sich auf die Schärfe des Bildes beziehen, wobei eine zunehmende Integration das Rauschen entfernt und außerhalb der Brennebene liegende Bereiche des Bildes beseitigt. Die Prägnanzfunktion kann jedoch auch die Sättigung von Farben in dem Bild wiedergeben, wobei die mehr hervorstechenden Bildbereiche eine Sättigung in der Nähe des Mittelwertes zwischen Sättigung und fehlender Sättigung haben. Wenn diese letzte Prägnanzfunktion verwendet wird, kann das Verfahren verwendet werden, um eine Schleierbildung in der Bildfolge zu reduzieren.
  • 21 ist ein Flußdiagramm, welches einen Prozeß veranschaulicht, durch welchen die Chrominanz-Bildkomponenten mit der Luminanz-Komponente räumlich ausgerichtet werden können. Das in 21 dargestellte Verfahren kann zur Verarbeitung von Bildern verwendet werden, wie z. B. denen, die von einem VHS- oder 8 mm-Videoband wiedergegeben werden können, um die Entsprechung zwischen den Luminanz- und Chrominanz-Komponenten eines individuellen Bildes zu verbessern. Zusätzlich ist die Signalbandbreite für die Farbdifferenzkomponenten (beispielsweise U und V) von standardmäßigen Fernsehbildern wesentlich geringer als die Bandbreite der Luminanz-Komponente (Y). Dieses führt zu einem Farbüberlauf bzw. einer Farbverschmierung über die Luminanz-Grenze hinaus. Diese Verzerrung ist besonders deutlich sichtbar in Szenen, die ein farbiges Objekt vor einem weißen oder schwarzen Hintergrund zeigen. Der in 21 dargestellte Prozeß befaßt sich mit diesem Problem durch Verzerren bzw. Verformen der Chrominanz-Bilder in bzw. in Richtung auf das Luminanz-Bild.
  • In Schritt 2110 berechnet der Prozeß Farbe und Sättigung wieder, von denen keine dem Bilddetail in dem Luminanz-Bild entspricht. Da die Farbüberlaufverzerrung in Bereichen des Bildes besonders sichtbar ist, wo ein farbiges Objekt auf einem weißen oder schwarzen Hintergrund darge stellt wird, erzeugt eine konventionelle Kantenerfassung sowohl bei den Chrominanz- als auch bei den Luminanz-Bildern unter Verwendung von Kantenschwellwerten, die für die relativen Bandbreiten der Signale angemessen definiert werden, einen akzeptablen Satz von Kantenzuordnungen bzw. Kantenplänen. Alternativ kann eine einzelne Kantenzuordnung aus einer Kombination der U- und V-Farbdifferenzbilder beispielsweise auf Basis der Farbe abgeleitet werden. In vielen Bildern haben Objekte gleichmäßige Farben, die mit der Beleuchtung der Objekte in der Sättigung variieren. Wenn die Chrominanz-Kantenzuordnung dann auf der Farbe beruhen würde, sollte zumindest für diese Objekte die Chrominanz-Kantenzuordnung der Luminanz-Kantenzuordnung entsprechen.
  • Gemäß 21 berechnet in Schritt 2112 der Prozeß Verschiebungsfelder aus den U- und V-Kantenzuordnungen bzw. Kantenplänen relativ zu dem Luminanz-Kantenplan. In Schritt 2114 werden die U- und V-Bilder in Richtung des Luminanz-Bildes auf der Basis des berechneten Verschiebungsfeldes aus den Kantenplänen bzw. Kantenlagen verformt. Da die Chrominanz-Bilder als zumindest näherungsweise mit den Luminanz-Bildern ausgerichtet angenommen werden können, kann dieser Prozeß modifiziert werden, so daß er keine unangemessene Verzerrung einführt durch Begrenzen der Größe irgendeiner Verschiebung in einem Verschiebungsfeld. Wenn ein Verschiebungsfeld größer als dieser Schwellwert berechnet wird, kann er entweder auf Null gesetzt werden oder auf einen Maximalwert begrenzt werden.
  • Die vorliegende Offenbarung beschreibt zahlreiche Verfahren zum Ausführen einer elektronischen Bildverbesserung. Diese Verfahren sind alle in der Lage, die Leistungsfähigkeit jedes Sensors zu verbessern, indem der Dynamikbereich, die Tiefenschärfe und die Integrationszeit des Sensors verbessert werden. Zusätzlich wurden zwei weitere Verfahren beschrieben. Das erste versetzt digitale Fotokameras in die Lage, automatisch Videoeinzelbilder in opportunistischer Weise auszuwählen, um die Qualität des gewonnenen Bildes für einen sich bewegenden Sensor maximal zu machen, während das zweite die Korrektur von Verzerrungseffekten erlaubt.
  • Während die Erfindung anhand von beispielhaften Ausführungsformen beschrieben worden ist, kann man sich vorstellen, daß sie, so wie sie beschrieben wurde, innerhalb des Rahmens der anhängenden Ansprüche ausgeführt werden kann.

Claims (9)

  1. Verfahren für das Kombinieren einer Mehrzahl von Farbbildern (A, B) einer Szene, um ein verbessertes Farbbild der Szene zur Verfügung zu stellen, das die Schritte aufweist: Empfangen der Mehrzahl der Farbbilder (A, B) als getrennte Helligkeits- bzw. Luminanz- und Farbton- bzw. Chromianz-Bilddaten, Filtern (814, 816, 912, 1012) der Luminanzbilddaten, die die Mehrzahl von Bildern darstellen, um eine entsprechende Mehrzahl von Luminanzpyramiden (LA, LB) zu erzeugen, wobei jede Luminanzpyramide eine Ebene niedriger Auflösung und eine Mehrzahl von Ebenen höherer Auflösung hat, Filtern (814, 816, 914, 1014) der Chrominanzbilddaten, die die Mehrzahl von Bildern darstellen, um eine entsprechende Mehrzahl von Chrominanzpyramiden zu erzeugen, wobei jede Chrominanzpyramide eine Ebene niedriger Auflösung und eine Mehrzahl von Ebenen höherer Auflösung hat, zusätzliches Erzeugen (820, 818, 916, 1016) von zumindest einer Ausprägungspyramide (σ(LA) σ(LB)) für jedes Bild (A, B), die die Vorsprünge bzw. Ausprägungen von Merkmalen des Bildes anzeigt, wobei jede Ausprägungspyramide eine Funktion (σ) einer raumskalierten Darstellung des Bildes ist, Kombinieren (830, 918, 1018) der Merkmale der Luminanzpyramiden und der Chrominanzpyramiden der zu kombinierenden Bilder auf allen Pyramidenebenen außer der Ebene niedriger Auflösung in Übereinstimmung mit einer Bildungsfunktion, die eine Funktion (6) der Ausprägungspyramiden der zu kombinierenden Bilder ist, um eine einzelne verschmolzene Luminanzteilpyramide (Lc) und eine einzelne verschmolzene Chrominanzteilpyramide zu erzeugen, Verarbeiten (920, 1020) der Ebenen niedrigen Niveaus der Mehrzahl von Luminanzpyramiden, um eine verschmolzene Luminanzebene niedriger Auflösung zu erzeugen, Verarbeiten (922, 1020) der Ebenen niedriger Auflösung der Mehrzahl von Chrominanzpyramiden, um eine verschmolzene Chrominanzebene niedriger Auflösung zu erzeugen, Kombinieren (830, 924, 1022) der verschmolzenen Luminanzebene niedriger Auflösung mit der verschmolzenen Luminanzteilpyramide, um eine verschmolzene Luminanzpyramide zu bilden, und Kombinieren der verschmolzenen Chrominanzebene niedriger Auflösung mit der verschmolzenen Chrominanzteilpyramide, um eine verschmolzene Chrominanzpyramide zu bilden, und Wiederherstellen (832, 924, 1022) von verbesserten Luminanz- und Chrominanzbildern aus den jeweiligen verschmolzenen Luminanz- und Chrominanzpyramiden und Kombinieren der verbesserten Luminanz- und Chrominanzbilder, um das verbesserte Bild des Szene zu bilden.
  2. Verfahren nach Anspruch 1, wobei sich die Verarbeitung der niedrigen Ebenen der Luminanzpyramiden und/oder die Verarbeitung der niedrigen Ebenen der Chrominanzpyramiden von der Verarbeitung der Ebenen höherer Auflösung unterscheidet.
  3. Verfahren nach Anspruch 1, wobei jede Ausprägungspyramide eine Funktion (σ) einer Luminanzpyramide des Bildes ist.
  4. Verfahren nach Anspruch 3, wobei das verbesserte Farbbild eine verbesserte Feldtiefe relativ zu irgendeinem der Mehrzahl von Farbbildern hat, wobei: der Schritt (912) des Filterns der Luminanzbilddaten, die die Mehrzahl von Bildern darstellen, eine entsprechende Mehrzahl von Laplace-Pyramiden erzeugt, wobei jede Laplace-Pyramide eine gaußgefilterte Ebene niedriger Auflösung und eine Mehrzahl von laplacegefilterten Ebenen höherer Auflösung hat, der Schritt (914) des Filterns der Chrominanzbilddaten, die die Mehrzahl von Bildern darstellen, eine entsprechende Mehrzahl von Gauß-Pyramiden erzeugt, wobei jede Gauß-Pyramide eine gaußgefilterte Ebene niedriger Auflösung und eine Mehrzahl von gaußgefilterten Ebenen höherer Auflösung hat, der Erzeugungsschritt (916) jede Ausprägungspyramide als eine Funktion einer Laplace-Luminanzpyramide erzeugt, der Kombinationsschritt (918) die Merkmale der laplacegefilterten Ebenen höherer Auflösung von den Bildern kombiniert in Übereinstimmung mit einer maximalen Größenfunktion, um die Luminanzteilpyramide und die Chrominanzteilpyramide zu erzeugen, der Schritt (920) der Verarbeitung der Ebenen niedriger Auflösung der Luminanzpyramiden das Anlegen einer Maximalgrößenfunktion auf entsprechende Werte der Ebene niedriger Auflösung beinhaltet, um die verschmolzene Luminanzebene niedriger Auflösung zu bilden, und der Schritt (922) der Verarbeitung der Niveaus niedriger Auflösung der Chrominanzpyramiden das Mitteln entsprechender Werte der Ebenen niedriger Auflösung beinhaltet, um die verschmolzene Chrominanzebene niedriger Auflösung zu bilden.
  5. Verfahren nach Anspruch 3, wobei das verbesserte Farbbild einen verbesserten dynamischen Bereich relativ zu irgendeinem der Mehrzahl von Farbbildern hat, wobei: der Schritt (1012) des Filterns der Luminanzdaten, die die Mehrzahl von Bildern darstellen, eine entsprechende Mehrzahl von Laplace-Pyramiden erzeugt, wobei jede Laplace-Pyramide eine gaußgefilterte Ebene niedriger Auflösung und eine Mehrzahl von laplacegefilterten Ebenen höherer Auflösung hat, der Schritt (1014) des Filterns der Chrominanzbilddaten, die die Mehrzahl von Bildern darstellen, eine entsprechende Mehrzahl von Gauß-Pyramiden erzeugt, wobei jede Gauß-Pyramide eine gaußgefilterte Ebene niedriger Auflösung und eine Mehrzahl von gaußgefilterten Ebenen höherer Auflösung hat, der Erzeugungsschritt (1016) jeder Ausprägungspyramide als eine Funktion einer Laplace-Luminanzpyramide erzeugt, der Kombinationsschritt (1018) die Merkmale der laplacegefilterten Ebenen höherer Auflösung der Bilder in Übereinstimmung mit einer Maximalgrößenfunktion kombiniert, um die Luminanzteilpyramide und die Chrominanzteilpyramide zu erzeugen, der Schritt (1020) der Verarbeitung der Ebenen niedriger Auflösung der Chrominanzpyramiden die Schritte aufweist: Erzeugen einer Mittelmaske mit einer Mehrzahl von Orten, die einer entsprechenden Mehrzahl von Orten in jeder der Chrominanzebenen niedriger Auflösung entsprechen, wobei jeder Ort der Mittelmaske einen entsprechenden Wert in einer der Mehrzahl von Chrominanzebenen niedriger Auflösung entspricht, dessen Wert ein Mittelwert von allen entsprechenden Werten in den Chrominanzebenen niedriger Auflösung an dem Ort ist, und Verschmelzen der Mehrzahl von Chrominanzebenen niedriger Auflösung in Übereinstimmung mit der Mittelmaske, und den Schritt des Verarbeitens der Ebenen niedriger Auflösung der Luminanzpyramiden den Schritt des Verschmelzens der Mehrzahl von Luminanzebenen niedriger Auflösung in Übereinstimmung mit der Mittelmaske beinhaltet.
  6. Datenträger, der ein Computerprogramm beinhaltet, das, wenn es auf einem Computer ausgeführt wird, eine Mehrzahl von Farbbildern einer Szene in Übereinstimmung mit dem Verfahren nach einem der Ansprüche 1 bis 5 verarbeitet.
  7. Computerprogramm, das, wenn es auf einem Computer abläuft, eine Mehrzahl von Farbbildern einer Szene in Übereinstimmung mit dem Verfahren nach einem der Ansprüche 1 bis 5 verarbeitet.
  8. Vorrichtung für die Verarbeitung einer Mehrzahl von Farbbildern einer Szene, um ein verbessertes Farbbild der Szene zur Verfügung zu stellen, die aufweist: eine Quelle von Farbbildern als getrennte Luminanz- und Chrominanzbilddaten, eine Einrichtung, die derart angeordnet ist, daß sie die Luminanzbilddaten, die die Mehrzahl von Bildern darstellen, verarbeitet, um eine entsprechende Mehrzahl von Luminanzpyramiden zu erzeugen, wobei jede Luminanzpyramide eine Ebene niedriger Auflösung und eine Mehrzahl von Ebenen höherer Auflösung hat, Einrichtungen, die dafür ausgelegt sind, die Chrominanzbilddaten, die die Mehrzahl von Bildern darstellen, zu verarbeiten, um eine entsprechende Mehrzahl von Chrominanzpyramiden zu erzeugen, wobei jede Chrominanzpyramide eine Ebene niedriger Auflösung und eine Mehrzahl von Ebenen höherer Auflösung hat, eine Einrichtung, die derart ausgelegt ist, daß sie zusätzlich für jedes Bild (A, B) zumindest eine Ausprägungspyramide (σ(LA) σ(LB)) zusätzlich erzeugt (820, 818, 916, 1016), die die Ausprägungen bzw. Hervorhebungen von Merkmalen des Bildes anzeigt, wobei jede Ausprägungspyramide eine Funktion (σ) einer raumskalierten Darstellung des Bildes ist, eine Einrichtung, die dafür ausgelegt ist, Merkmale der Luminanzpyramiden und der Chrominanzpyramiden der zu kombinierenden Bilder auf allen Ebenen der Pyramiden außer der Ebene niedriger Auflösung zu kombinieren (830, 918, 1018), in Übereinstimmung mit einer Abbildungsfunktion, die eine Funktion (6) der Ausprägungspyramiden der zu kombinierenden Bilder ist, um eine einzelne verschmolzene Luminanzteilpyramide (LC) und eine einzelne verschmolzene Chrominanzteilpyramide zu erzeugen, eine Einrichtung, die die Ebenen niedriger Auflösung der Mehrzahl von Luminanzpyramiden verarbeitet, um eine verschmolzene Luminanzebene niedriger Auflösung zu erzeugen, eine Einnchtung, die die Ebenen niedriger Auflösung der Mehrzahl von Chrominanzpyramiden verarbeitet, um eine verschmolzene Chrominanzebene niedriger Auflösung zu erzeugen, eine Einnchtung, die die verschmolzene Luminanzebene niedriger Auflösung mit der verschmolzenen Luminanzteilpyramide kombiniert, um eine verschmolzene Luminanzpyramide zu erzeugen, und die verschmolzene Chrominanzebene niedriger Auflösung mit der Chrominanzteilpyramide kombiniert, um eine verschmolzene Chrominanzpyramide zu erzeugen, und eine Einrichtung, die verbesserte Luminanz- und Chrominanzbilder aus den jeweiligen verschmolzenen Luminanz- und Chrominanzpyramiden rekonstruiert und die verbesserten Luminanz- und Chrominanzbilder kombiniert, um das verbesserte Bild der Szene zu bilden.
  9. Vorrichtung nach Anspruch 8, wobei jede Ausprägungspyramide eine Funktion (σ) einer Luminanzpyramide des Bildes ist.
DE69909635T 1998-08-28 1999-08-27 Gerät und verfahren zur elektronischen bildverbesserung Expired - Fee Related DE69909635T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9834298P 1998-08-28 1998-08-28
US98342P 1998-08-28
PCT/US1999/019863 WO2000013407A1 (en) 1998-08-28 1999-08-27 Method and apparatus for electronically enhancing images

Publications (2)

Publication Number Publication Date
DE69909635D1 DE69909635D1 (de) 2003-08-21
DE69909635T2 true DE69909635T2 (de) 2004-04-15

Family

ID=22268861

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69909635T Expired - Fee Related DE69909635T2 (de) 1998-08-28 1999-08-27 Gerät und verfahren zur elektronischen bildverbesserung

Country Status (5)

Country Link
EP (1) EP1110381B1 (de)
JP (1) JP2002524930A (de)
KR (1) KR20010085748A (de)
DE (1) DE69909635T2 (de)
WO (1) WO2000013407A1 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7119837B2 (en) * 2002-06-28 2006-10-10 Microsoft Corporation Video processing system and method for automatic enhancement of digital video
US7619626B2 (en) * 2003-03-01 2009-11-17 The Boeing Company Mapping images from one or more sources into an image for display
WO2004112380A1 (ja) * 2003-06-17 2004-12-23 Matsushita Electric Industrial Co., Ltd. 情報生成装置、撮影装置および撮影方法
DE10342388A1 (de) * 2003-09-13 2005-04-07 Hella Kgaa Hueck & Co. Optoelektronische Überwachungseinrichtung für Kraftfahrzeuge
US8036494B2 (en) 2004-04-15 2011-10-11 Hewlett-Packard Development Company, L.P. Enhancing image resolution
US7730406B2 (en) 2004-10-20 2010-06-01 Hewlett-Packard Development Company, L.P. Image processing system and method
FI20045445A0 (fi) 2004-11-18 2004-11-18 Nokia Corp Menetelmä, laitteisto, ohjelmisto ja järjestely kuvadatan muokkaamiseksi
US8068691B2 (en) 2005-01-26 2011-11-29 Koninklijke Philips Electronics N.V. Sparkle processing
FR2888375A1 (fr) * 2005-07-06 2007-01-12 Thomson Licensing Sa Procede d'obtention d'une carte de saillance a partir d'une pluralite de cartes de saillances etablies a partir de grandeurs visuelles differentes
KR100925419B1 (ko) 2006-12-19 2009-11-06 삼성전자주식회사 라플라시안 피라미드를 이용한 컬러 영상의 화질 개선 장치및 그 방법
US20100186234A1 (en) 2009-01-28 2010-07-29 Yehuda Binder Electric shaver with imaging capability
SE0901125A1 (sv) * 2009-08-27 2010-11-16 Flir Systems Ab Förfarande för kompensering av turbulens vid upptagning av filmsekvenser
IL202788A (en) * 2009-12-17 2016-08-31 Elta Systems Ltd Method and system for improving radar image
ITTO20130032A1 (it) 2013-01-15 2014-07-16 St Microelectronics Srl Procedimento ed apparecchiatura per calcolare piramidi di immagini e prodotto informatico relativo
US9350916B2 (en) 2013-05-28 2016-05-24 Apple Inc. Interleaving image processing and image capture operations
US9491360B2 (en) 2013-06-06 2016-11-08 Apple Inc. Reference frame selection for still image stabilization
US9384552B2 (en) 2013-06-06 2016-07-05 Apple Inc. Image registration methods for still image stabilization
US9262684B2 (en) * 2013-06-06 2016-02-16 Apple Inc. Methods of image fusion for image stabilization
US20150071547A1 (en) 2013-09-09 2015-03-12 Apple Inc. Automated Selection Of Keeper Images From A Burst Photo Captured Set
JP2018524623A (ja) * 2015-05-14 2018-08-30 エスアールアイ インターナショナルSRI International モバイル機器キャプチャからの最適画像選択方法
US10186023B2 (en) 2016-01-25 2019-01-22 Qualcomm Incorporated Unified multi-image fusion approach
US10267951B2 (en) 2016-05-12 2019-04-23 The Climate Corporation Statistical blending of weather data sets
CN110021031B (zh) * 2019-03-29 2023-03-10 中广核贝谷科技有限公司 一种基于图像金字塔的x射线图像增强方法
KR102598334B1 (ko) * 2021-12-24 2023-11-02 한양대학교 산학협력단 윤곽선 정보를 이용한 딥러닝 기반 초해상도 동영상 생성 시스템 및 방법
CN115841425B (zh) * 2022-07-21 2023-11-17 爱芯元智半导体(宁波)有限公司 视频降噪方法、装置、电子设备及计算机可读取存储介质
CN116958492B (zh) * 2023-07-12 2024-05-03 数元科技(广州)有限公司 一种基于NeRf重建三维底座场景渲染的VR编辑方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8317407D0 (en) * 1983-06-27 1983-07-27 Rca Corp Image transform techniques
DE68919431T2 (de) * 1988-04-30 1995-03-30 Victor Company Of Japan Schaltung zur Verbesserung der Bildqualität.
US5070405A (en) * 1989-09-19 1991-12-03 Nikon Corporation Electronic still camera with multi-area light metering and gray scale modification
US5268758A (en) * 1990-09-26 1993-12-07 Matsushita Electric Industrial Co., Ltd. Horizontal line interpolation circuit and image pickup apparatus including it
DE69124777T2 (de) * 1990-11-30 1997-06-26 Canon Kk Gerät zur Detektion des Bewegungsvektors
KR940006623B1 (ko) * 1991-02-01 1994-07-23 삼성전자 주식회사 영상신호 처리 시스템
GB2256989B (en) * 1991-06-21 1995-02-08 Sony Broadcast & Communication Video image capture apparatus
US5359674A (en) * 1991-12-11 1994-10-25 David Sarnoff Research Center, Inc. Pyramid processor integrated circuit
US5325449A (en) * 1992-05-15 1994-06-28 David Sarnoff Research Center, Inc. Method for fusing images and apparatus therefor
US5706054A (en) * 1995-12-01 1998-01-06 Intel Corporation Method and apparatus for adjusting video data to limit the effects of automatic focusing control on motion estimation video coders
US5719966A (en) * 1996-03-29 1998-02-17 David Sarnoff Research Center, Inc. Apparatus for assessing the visiblity of differences between two image sequences

Also Published As

Publication number Publication date
DE69909635D1 (de) 2003-08-21
JP2002524930A (ja) 2002-08-06
EP1110381A4 (de) 2002-01-23
KR20010085748A (ko) 2001-09-07
EP1110381B1 (de) 2003-07-16
WO2000013407A1 (en) 2000-03-09
EP1110381A1 (de) 2001-06-27

Similar Documents

Publication Publication Date Title
DE69909635T2 (de) Gerät und verfahren zur elektronischen bildverbesserung
DE69333846T2 (de) Verfahren zur mischung von bildern und vorrichtung hierzu.
DE112018002228B4 (de) Konfigurierbare faltungsmaschine für verschachtelte kanaldaten
DE69026434T2 (de) Einzelverarbeitungsverfahren zur erzeugung einer gleichmässigen verarbeitung von horizontalen und vertikalen einzelkomponenten
DE69126366T2 (de) Erhöhung der Signaldynamik für eine multifunktionelle digitale CCD-Kamera
DE69010411T2 (de) Szenenabhängige kompensation inhomogen verteilter detektorempfindlichkeit einer bilddetektormatrix.
DE602004009702T2 (de) Verfahren und System zur automatischen Reduzierung von Aliasing-Artefakten
DE60218317T2 (de) Verfahren und system zur herstellung von auf geometrischen verzerrungen bezogenen formatierten informationen
DE602006000400T2 (de) Bildsegmentierungsverfahren und -system
DE69930986T2 (de) Hochauflösende Kamera
DE102011078662B4 (de) Erfassen und Erzeugen von Bildern mit hohem Dynamikbereich
DE3687877T2 (de) Kamera und verfahren zur bilderzeugung.
DE69125139T2 (de) Verfahren und Vorrichtung zur Korrektur von Weisschattierungen
DE69920638T2 (de) Auflösungsverbesserung aus Mehrfach-Bildern einer Szene, die eine Bewegung in nichtganzzahligen Pixelwerten enthält
DE69735488T2 (de) Verfahren und vorrichtung zum ausrichten von bildern
DE69531857T2 (de) Gerät und verfahren zur erzeugung eines filmähnlichen videos
DE69906403T2 (de) Verfahren und Gerät zum Detektieren eines gesichtsähnlichen Gebiets
DE602005003917T2 (de) Verfahren und Vorrichtung zur Erzeugung von Bildern mit hoher Dynamik aus mehreren Belichtungen
DE69005991T2 (de) Verfahren und anordnung zur erzeugung eines hochauflösenden elektronischen signals von der zeilenabtastung einer farbvorlage.
DE602005004299T2 (de) Digitales bilderfassungssystem mit mitteln zur bestimmung der kamerabewegungsunschärfefunktion
DE4041312C2 (de) Elektronische Kameravorrichtung zum Liefern eines Bildsignales mit einem weiten Dynamikbereich
DE3687850T2 (de) Festkoerper-bildaufnahmeanordnung.
DE4329839A1 (de) Abbildungseinrichtung mit zwei Bildsensoren
DE3931934A1 (de) Bild-ein-/ausgabevorrichtung
DE102006038646A1 (de) Bildverarbeitungsvorrichtung für Farb-Bilddaten und Verfahren zur Bildverarbeitung von Farb-Bilddaten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee