DE69726567T2 - Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen - Google Patents

Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen Download PDF

Info

Publication number
DE69726567T2
DE69726567T2 DE69726567T DE69726567T DE69726567T2 DE 69726567 T2 DE69726567 T2 DE 69726567T2 DE 69726567 T DE69726567 T DE 69726567T DE 69726567 T DE69726567 T DE 69726567T DE 69726567 T2 DE69726567 T2 DE 69726567T2
Authority
DE
Germany
Prior art keywords
temporary
input image
contrast
image
pass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69726567T
Other languages
English (en)
Other versions
DE69726567D1 (de
Inventor
Henry Michael BRILL
Jeffrey Lubin
Aalbert De Vries
Olga Finard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sarnoff Corp
Original Assignee
Sarnoff Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sarnoff Corp filed Critical Sarnoff Corp
Application granted granted Critical
Publication of DE69726567D1 publication Critical patent/DE69726567D1/de
Publication of DE69726567T2 publication Critical patent/DE69726567T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Vorrichtung und gleichzeitig ein Verfahren für das Bewerten und Verbessern der Leistung von Abbildungssystemen. Insbesondere betrifft diese Erfindung ein Verfahren und eine Vorrichtung, das bzw. die die Sichtbarkeit von Unterschieden zwischen zwei Bildsequenzen bewertet.
  • TECHNISCHER HINTERGRUND DER ERFINDUNG
  • Konstrukteure von Abbildungssystemen bewerten die Leistung ihrer Konstruktionen häufig durch physikalische Parameter, wie z. B. den Kontrast, die Auflösung und die Bitrateneffizienz in Komprimierungs-/Dekomprimierungs- (codec-) Prozessen. Während diese Parameter leicht gemessen werden können, können sie kein genaues Maß für die Bewertung der Leistung sein. Der Grund ist der, daß für Endbenutzer der Abbildungssysteme im allgemeinen die subjektive visuelle Leistung wichtiger ist, wie z. B. die Sichtbarkeit von Artefakten oder Verzerrungen und in manchen Fällen die Verstärkung dieser Bildmerkmale, die Information erkennen lassen, wie z. B. die Existenz eines Tumors in einem Bild, z. B. einem MRI- (Magnetresonanzabbildungs-) Bild oder einem CAT- (computerunterstützte Tomographie) Abtastbild.
  • Beispielsweise kann ein Eingangsbild unter Verwendung von zwei unterschiedlichen codec-Algorithmen verarbeitet werden, um zwei unterschiedliche codec-Bilder zu erzeugen. Wenn das Maß der codec-Bildwiedergabetreue nur auf Parametern fußt, wie z. B. das Durchführen von Berechnungen des mittleren quadratischen Fehlers (MSE) auf beiden codec-Bildern, ohne die psychophysikalischen Eigenschaften des menschlichen Sehvermögens zu betrachten, kann das codec-Bild mit einem geringeren MSE-Wert tatsächlich mehr bemerkbare Verzerrungen haben als ein codec-Bild mit einem größeren MSE-Wert.
  • Über die Jahre wurden verschiedene Modelle der menschlichen visuellen Leistung verwendet, um die Konstruktion der Abbildungssysteme zu verbessern. Ein Modell (bekannt als das Carlson-und-Cohen-Modell) zerlegt ein Eingangsbild durch Partitionieren seines eindimensionalen Leistungsspektrums in eine Anzahl von diskreten benachbarten Frequenzbändern. Das Integral der Amplitudenwerte innerhalb jedes Bandes wird dann einer statischen Nicht-Linearität unterworfen, die für kleine Eingangswerte zunimmt und für größere Werte stauchend ist. Veränderungen in der Ausgabe dieses Prozesses von einem Mitglied eines Bildpaares zu dem anderen stellt ein einfaches Wahrnehmungsmaß der Sichtbarkeit von Unterschieden zwischen den beiden Bildern dar.
  • Ein ähnliches Verfahren ist das Quadratwurzel-Integralmodell (SQRI). In diesem Modell werden die getrennten frequenzselektiven Bänder durch ein einzelnes Integral über die Ortsfrequenzen ersetzt basierend auf dem Verhältnis zwischen der Modulationsübertragungsfunktion der Anzeige und einer arithmetischen Näherung an die Kontrastempfindlichkeitsfunktion des menschlichen Beobachters. Obgleich das SQRI erfolgreich auf eine Anzahl von unterschiedlichen Anzeigebewertungsproblemen angewendet wurde, sind dieses Modell und andere grundlegende psychophysikalische Modelle räumlich eindimensional. Diese Modelle sagen nämlich die Empfindlichkeit gegenüber der örtlichen Variation in nur einer Dimension voraus.
  • Es besteht daher die Notwendigkeit im Stand der Technik nach einem Verfahren und einer Vorrichtung für die Bewertung der Effekte der physikalischen Parameter auf die subjektive visuelle Leistung eines Bildsystems. Genauer gesagt besteht die Notwendigkeit nach einem Verfahren und einer Vorrichtung für das Bewerten der Sichtbarkeit von Unterschieden zwischen zwei Sequenzen von sich in der Zeit variierenden visuellen Bildern.
  • Die US-Patentanmeldung Nr. US-A-5,446,492 beschreibt ein System für das objektive Messen der Bildqualität eines Videosignals durch Erzeugen von Meßparametern, die die Qualität der menschlichen Bildwahrnehmung anzeigen. Testeinzelbilder eines Videoquellsignals und eines Videozielsignals werden verglichen über Bildqualitätsparameter basierend auf der menschlichen Bildwahrnehmungsqualität. Ein Sobel-Filter wird verwendet, um verstärkte Kanteninformation abzuleiten, die eine wahrnehmungsbasierte Messung von örtlichen Details in einem Videobild bereitstellt. Ein absoluter Einzelbilddifferenzfilter wird verwendet, um die verstärkte Bewegungsinformation abzuleiten, die eine wahrnehmungsbasierte Benutzung von zeitweiligen Details zwischen Videobildern bereitstellt.
  • Darstellung der Erfindung
  • Nach einem ersten Aspekt stellt die vorliegende Erfindung eine Vorrichtung für die Bewertung der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen mit einer Mehrzahl von Eingangsbildern zur Verfügung, wobei jedes der Eingangsbilder eine Farbkomponente und eine Helligkeitskomponente hat, wobei die Vorrichtung aufweist: eine temporäre Filtereinrichtung für das Herausfiltern der Farbkomponenten von jeder der Eingangsbildsequenzen in eine erste temporäre Tiefpassantwort und für das Herausfiltern der Helligkeitskomponenten aus jeder der Eingangsbildsequenzen in eine zweite temporäre Tiefpassantwort und eine temporäre Bandpassantwort, und einen räumlichen Diskriminator, der mit einer temporären Filtereinrichtung verbunden ist, für das Erzeugen einer Bildmetrik aus den temporären Tiefpass- und Bandpassantworten aus sowohl der Helligkeits- als auch der Farbkomponente der Eingangsbildsequenzen.
  • In einer Ausführungsform weist die temporäre Filtereinrichtung auf: einen ersten temporären Filter, der mit dem räumlichen Diskriminator verbunden ist, für das Herausfiltern der Farbkomponenten aus der ersten Eingangsbildsequenz und einen zweiten temporären Filter, der mit dem räumlichen Diskriminator verbunden ist, für das Herausfiltern der Farbkomponenten aus der zweiten Eingangsbildsequenz.
  • In einer weiteren Ausführungsform weist der räumliche Diskriminator auf: eine Kontrasttransformation für das Berechnen einer Kontrastpyramide mit einer Mehrzahl von Ebenen für jedes Bild der temporären Tiefpass- und Bandpassantworten und eine Verstärkungssteuerung, die mit der Kontrasttransformation verbunden ist, für das Anwenden einer Quermaskierung von visuellen Grenzwerten auf die Kontrastpyramiden.
  • In noch einer anderen Ausführungsform ist die temporäre Filtereinrichtung derart betreibbar, daß sie die Farbkomponenten in eine erste temporäre Tiefpassantwort und eine weitere temporäre Bandpassantwort filtert.
  • Gemäß einem zweiten Aspekt stellt die vorliegende Erfindung ein Verfahren für das Bewerten der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen mit einer Mehrzahl von Eingangsbildern zur Verfügung, wobei jedes der Eingangsbilder eine Farbkomponente und eine Helligkeitskomponente hat, wobei das Verfahren die Schritte aufweist: (a) Herausfiltern der Farbkomponente aus jeder der Eingangsbildsequenzen in eine erste temporäre Tiefpassantwort, (a1) Herausfiltern der Helligkeitskomponenten aus jeder der Eingangsbildsequenzen in eine zweite temporäre Tiefpassantwort und eine temporäre Bandpassantwort und (b) Diskriminieren der temporären Tiefpassantworten und der temporären Bandpassantworten, um eine Bildmetrik zu erzeugen.
  • In einer Ausführungsform weist das Verfahren weiterhin die Schritte auf: (a') Erzeugen eines Satzes von Farbkoordinaten für jedes Bildpixel des Eingangsbildes aus den Eingangsbildsequenzen, wobei die Eingangsbildsequenzen zu dem Filterschritt (a) die Farbkoordinaten aufweisen.
  • In einer anderen Ausführungsform weist der Erzeugungsschritt (a') die Schritte auf: (a'1) Erzeugen von CIE- (Commission Internationale de I'Eclairage-) Koordinaten für alle Bildpixel des Eingangsbildes von den Eingangsbildsequenzen, (a'2) Umwandeln bzw. Transformieren der CIE-Koordinaten in Kegel- bzw. Konusantworten, und (a'3) Erzeugen des Satzes von Farbkoordinaten aus den Konusantworten.
  • In einer weiteren Ausführungsform weist der Diskriminierungsschritt (b) die Schritte auf: (b1) Erzeugen einer Kontrastpyramide mit einer Mehrzahl von Ebenen für jedes Bild der temporären Tiefpass- und Bandpassantworten und (b2) Anwenden einer Quermaskierung der visuellen Grenze auf die Kontrastpyramiden.
  • In noch einer weiteren Ausführungsform weist der Filterschritt (a) das Filtern der Farbkomponenten von jeder der Eingangsbildsequenzen in eine erste temporäre Antwort und eine weitere temporäre Bandpassantwort auf und der Diskriminierungsschritt weist die Diskriminierung der ersten temporären Tiefpassantwort, der zweiten temporären Tiefpassantwort, der temporären Bandpassantwort und der weiteren temporären Bandpassantwort auf, um die Bildmetrik zu erzeugen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Lehren der vorliegenden Erfindung können leicht verstanden werden durch Betrachten der folgenden detaillierten Beschreibung in Verbindung mit den begleitenden Zeichnungen, in denen:
  • 1 ein Blockdiagramm eines Signalverarbeitungssystems der vorliegenden Erfindung darstellt,
  • 2 ein vereinfachtes Blockdiagramm der Struktur des visuellen Diskriminierungsmaßes darstellt,
  • 3 ein detailliertes Blockdiagramm der Struktur des visuellen Diskriminierungsmaßes darstellt,
  • 4 ein Blockdiagramm der Netzhautabfragesektion der visuellen Diskriminierungsmessung darstellt,
  • 5 ein Beispiel einer festen Wertgrenze darstellt,
  • 6 einer kantengesteuerten Grenze darstellt,
  • 7 ein Flußdiagramm eines Verfahrens für das Erzeugen einer Kontrastpyramide darstellt,
  • 8 ein Flußdiagramm eines Verfahrens für das Implementieren der Farbzusatzausführungsformen der visuellen Diskriminierung darstellt,
  • 9 ein Blockdiagramm der orientierten Filter der vorliegenden Erfindung darstellt,
  • 10 ein Flußdiagramm eines Verfahrens für das Erzeugen einer Bildmetrik darstellt, und
  • 11 ein Flußdiagramm eines Verfahrens für das Bewerten der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen darstellt.
  • Um das Verständnis zu erleichtern, wurden identische Referenzzahlen verwendet, wo dies möglich war, um identische Elemente zu bezeichnen, die in den Figuren gleich sind.
  • DETAILLIERTE BESCHREIBUNG
  • 1 stellt ein Signalverarbeitungssystem 100 dar, das die vorliegende Erfindung benutzt. Das Signalverarbeitungssystem besteht aus einer Signalempfangssektion 130, einer Signalverarbeitungssektion 110 und Eingabe-/Ausgabe-Geräten 120.
  • Die Signalempfangssektion 130 dient dazu, Eingangsdatensignale zu empfangen, wie z. B. Sequenzen von Bildern von den Abbildungsgeräten. Die Signalempfangssektion 130 beinhaltet eine Datenempfangssektion 132 und eine Datenspeichersektion 134. Die Datenempfangssektion 130 kann eine Anzahl von Geräten beinhalten, wie z. B. ein Modem und einen Analog-/Digital-Wandler. Ein Modem ist ein gut bekanntes Gerät, das einen Modulator und einen Demodulator aufweist für das Senden und Empfangen von Binärdaten über eine Telefonleitung oder einen anderen Kommunikationskanal, während ein Analog-/Digital-Wandler analoge Signale in eine digitale Form umwandelt. Die Signalempfangssektion 130 kann somit Eingangssignale "online" oder "in Echtzeit" empfangen und, falls notwendig, sie in eine digitale Form umwandeln. Im Grunde genommen kann die Sektion 130 Signale von einem oder mehreren Geräten empfangen, wie z. B. einem Computer, einer Kamera, einem Videorecorder oder verschiedenen medizinischen Abbildungsgeräten.
  • Die Datenspeichersektion 134 dient dazu, Eingangssignale, die von der Datenempfangssektion 132 empfangen werden, zu speichern. Die Datenspeichersektion 134 enthält ein oder mehrere Geräte, wie z. B. ein Diskettenlaufwerk, Halbleiterspeicher oder andere Speichermedien. Diese Speichergeräte stellen ein Verfahren zur Verfügung für das Anwenden einer Verzögerung auf die Eingangssignale oder für das einfache Speichern der Eingangssignale für die nachfolgende Verarbeitung.
  • In der bevorzugten Ausführungsform weist die Signalverarbeitungssektion 110 einen Allzweckcomputer mit einer visuellen Diskriminierungsmeßeinrichtung (VDM) 112, einer Zentralverarbeitungseinheit (CPU) 114 und einem Speicher 116 auf, um die Bildverarbeitung zu erleichtern. Die visuelle Diskriminierungsmeßeinrichtung 112 kann ein technisches Gerät sein, das aus verschiedenen Filtern konstruiert ist, das mit der CPU über einen Kommunikationskanal verbunden ist. Alternativ kann die visuelle Diskriminierungsmeßeinrichtung 112 als eine Softwareanwendung implementiert sein, die von dem Speicher 116 wieder aufgerufen wird und von der CPU der Signalverarbeitungssektion ausgeführt wird.
  • Die Signalverarbeitungssektion 110 ist ebenso mit einer Mehrzahl von Eingabe- und Ausgabegeräten 120 verbunden, wie z. B. einer Tastatur, einer Maus, einem Videomonitor oder Speichergeräten einschließlich, jedoch nicht hierauf begrenzt, einem Festplattenlaufwerk oder einem CD-Laufwerk. Die Eingabegeräte dienen dazu, Eingaben (Steuersignale und Daten) der Signalverarbeitungssektion für die Verarbeitung der Eingangsbilder zur Verfügung zu stellen, während die Ausgabegeräte dazu dienen, die Ergebnisse anzuzeigen oder aufzuzeichnen.
  • Die visuelle Diskriminierungsmeßeinrichtung 112 bewertet die Sichtbarkeit von Unterschieden zwischen zwei Sequenzen oder Strömen von Eingangsbildern und erzeugt eine objektive "gerade bemerkbare Differenz" (JND-) Bildmetrik. Diese Metrik kann als ein JND-Wert, eine JND-Abbildung für jedes Paar von Eingangsbildern oder eine Wahrscheinlichkeitsvorhersage ausgedrückt werden. Die CPU kann wiederum die JND-Bildmetrik benutzen, um verschiedene Prozesse zu optimieren einschließlich, jedoch nicht hierauf begrenzt, der digitalen Bildkomprimierung, der Bildqualitätsmessung und der Zielerfassung.
  • 2 stellt ein vereinfachtes Blockdiagramm der Struktur des visuellen Diskriminierungsmeßinstruments 112 dar, wo zwei Eingangsbildsequenzen 210 und 220 verarbeitet werden, um eine Bildmetrik 250 zu erzeugen. Das visuelle Diskriminierungsmeßgerät weist eine temporäre Filtersektion 230 und einen Ortsdiskriminator 240 auf.
  • In der bevorzugten Ausführungsform sind die Stimulanzien bzw. Reize zwei digitalisierte Abfolgen von Bildern, die Eingangsbildsequenz A 210 und die Eingangsbildsequenz B 220. Beispielsweise kann die Sequenz A Originalbilder (z. B. eine Referenzbildsequenz) aufweisen, während die Sequenz B codec-verarbeitete Bilder der Sequenz A (z. B. eine Testbildsequenz) aufweisen kann. Die Eingangssequenzen stellen Zeiteinzelbilder von abgefragten Helligkeitsverteilungen auf einer ebenen Fläche dar, d. h. so wie sie von einer Photometerabfrage eines gleichförmigen Gitters von eng benachbarten Punkten auf der Oberfläche einer Anzeigeeinrichtung zurückgegeben würden. Da jedoch die vorliegende Erfindung ebenso dafür vorgesehen ist, Unterschiede in der Farbe zwischen den beiden Eingangsbildsequenzen zu berücksichtigen, beinhalten die Stimulanzien bzw. Reize ebenso Farbkomponenten.
  • Die temporäre Filtersektion 230 legt die temporale Filterung an beide Bildsequenzen an, um acht getrennte Antworten (Kanäle) 212218 und 222228 zu erzeugen. Beispielsweise wird die Helligkeitskomponente (Signal) der Eingangsbildsequenz 210 in eine temporäre Tiefpassantwort 212 und eine temporäre Bandpassantwort 214 gefiltert. In gleicher Weise werden die Farbkomponenten (Signale) der Eingangsbildsequenz 210 in eine temporäre Tiefpassantwort 216 und eine temporäre Bandpassantwort 218 gefiltert. Somit werden acht (8) Kanäle für zwei Eingangsbildsequenzen erzeugt. Die acht Antworten werden von dem Ortsdiskriminator 240 empfangen, um eine Bildmetrik 250 zu erzeugen, die ein Maß der Sichtbarkeit der Unterschiede zwischen den Eingangsbildsequenzen bereitstellt. Weiterhin kann eine optionale Netzhautabfragesektion (in 3 unten gezeigt) aufgenommen sein, um die Eingangsbildsequenzen vor der temporären Filterung vorzuverarbeiten, wodurch die prädiktive Genauigkeit (relativ zu der menschlichen Leistung) des visuellen Diskriminierungsmeßinstruments weiter verbessert wird.
  • 3 stellt ein detailliertes Blockdiagramm der Struktur des visuellen Diskriminierungsmeßinstruments 112 dar. Das visuelle Diskriminierungsmeßinstrument weist eine optionale Netzhautabfragesektion 330, eine Mehrzahl von temporären Filtern 335 und 334 und eine Ortsdiskriminierungssektion 340 auf. Die Ortsdiskriminierungssektion (Ortsdiskriminator) weist eine Mehrzahl von Kontrastpyramidenfiltern 340 und 345, eine Mehrzahl von optional orientierten Filtern 350, einen Normalisierer 355, eine Verstärkungssteuerungssektion 360, eine Transducersektion 370, eine Pooling-Sektion (Pooler) 375 und eine Abstandssektion (Distancer) 380 auf.
  • Die Netzhautabfragesektion (Netzhautabfrager) 330 empfängt und verarbeitet eine Mehrzahl von Stimulanzien, um netzhautabgefragte Bildsequenzen zu erzeugen. Die Netzhautabfragesektion fragt nämlich die Stimulanzien erneut ab, um den Abfrageprozeß eines menschlichen Auges zu simulieren. Zusätzlich kann die Netzhautabfragesektion 330 zusätzliche Verarbeitungen anwenden, um die Bildsequenzen für den Effekt der digitalen Bildverarbeitung vorzubereiten. Die Netzhautabfragesektion 330 wird unten im Detail unter Bezug auf 4 beschrieben.
  • In 4 weist die Netzhautabfragesektion 330 einen Einzelbildrateneinsteller 410, einen Abfrager 420, einen Grenzeinfüger 430, einen Glätter/Interpolator 440, einen Falter 450, einen Anpasser bzw. Matcher 460 und einen Abfrager 470 auf. Die Netzhautabfragesektion 330 dient dazu, den Abfrageprozeß eines menschlichen Auges zu approximieren, während die Bilder an die optimale digitale Bildverarbeitung angepaßt werden.
  • Der Einzelbildrateneinsteller 410 empfängt die Bildsequenz 405 (er kann die Eingangssequenz 210 oder 220 aufweisen) und bestimmt, ob die Einzelbildrate innerhalb des Bereichs ist, der von einem menschlichen Auge verarbeitet werden kann. Der Einzelbildrateneinsteller fügt ein Zeitresamplingverfahren ein, um die Möglichkeit zu behandeln, daß die Bildsequenz mehr Einzelbilder pro Sekunde enthält als das Sichtmodell eines menschlichen Auges realistisch verarbeiten kann (z. B. 12.000 Einzelbilder/Sekunde).
  • Das menschliche Sehvermögen kann jedoch nur Bilder auflösen mit einem Intereinzelbildintervall größer als etwa 0,01 Sekunden, innerhalb dessen die Lichtintensität und die Dauer sich verändern, da das menschliche Auge ein nahezu perfekter Zeitintegrator ist. In Fällen von hohen Einzelbildraten sammelt der Einzelbildrateneinsteller 410 die Durchschnitte (arithmetische Mittel) der Einzelbilder über aufeinanderfolgende rechteckige Zeitfenster, um zu neuen untergesampleten Pixelwerten zu gelangen. Der Einzelbildrateneinsteller 410 resamplet nämlich eine Bildsequenz in der Zeit durch Bewerten der mittleren Pixelwerte für jeden Pixelort über eine Anzahl von Einzelbildern Nt und berechnet dadurch neue Einzelbilder (einzelbildeingestellte Bildsequenz), die mit 1/Nt der ursprünglichen Einzelbildrate bewertet wurden. Die Anzahl Nt wird als die größte ganze Zahl in Nf/100 genommen, wobei Nf die Anzahl von ursprünglichen Einzelbildern pro Sekunde ist. In der bevorzugten Ausführungsform tritt das Resampling nicht auf, bis die ursprüngliche Einzelbildrate 200 Hz oder höher ist.
  • Als nächstes wird die Eingangsbildsequenz durch den Sampler bzw. Abfrager 420 eingestellt, um der Beziehung zwischen der Eingabe-"Pixelgeometrie" der Eingangsbildsequenzen und der "Rezeptorgeometrie" der Netzhaut zu entsprechen. Der Sampler 420 korreliert nämlich die Interpixelabstände, die Größe der Pixel und den Sichtabstand der Eingangsbilder mit den Interrezeptorabständen bzw. der Größe des Rezeptors der Netzhaut. Der Sampler 420 berechnet somit eine Winkelbegrenzung für jedes Pixel, wie es von einem Betrachter gesehen wird.
  • Genauer gesagt bewertet der Sampler 420 die Eingangspixelgeometrie eines Bildes, wie z. B. die physikalische Größe des Bildes (w mal h), die Pixelgröße (m mal n) und den Blickabstand d0. ϕ0, die ursprüngliche Winkelausdehnung eines Pixels (in der Anzeigedomäne, xs) kann wiederum berechnet werden als:
    Figure 00070001
  • Jedes "Netzhautpixel" (in der Domäne x) muß jedoch einen Winkel von ϕr = 0,0068° umfassen. Der ausgewählte ϕr-Wert ist nahe dem fovealen Interrezeptorabstand (24–27 Sekunden des visuellen Winkels, siehe C. H. Graham, "Vision and Visual Perception", Wiley, S. 330, 1966). Weiterhin ist der ausgewählte ϕr-Wert von 0,0068° bequem, da eine Pixelgröße von 0,238 mm auf einem Standardmonitor, betrachtet mit einem Betrachtungsabstand von zwei (2) Metern, einen Interrezeptorabstand umfassen würde. Der Sampler 420 resamplet das Eingangsbild, um ϕ0 = ϕr zu machen. Falls m/n ≠ w/h, dann wird sich das Resampling für die Breite und Höhe unterscheiden. Wenn beispielsweise d0 = 46 cm, m = n = 512, w = h = 8 cm, dann ist ϕ0 = 0,01941. Da ϕ0 > ϕr, muß das Bild upgesamplet werden. In diesem Fall wird das 512 × 512-Gitter mit dem Faktor 0,01941/0,0068 upgesamplet, was eine neue Gittergröße von 1461 × 1461 Pixel erzeugt oder etwa 10° des Sichtwinkels erzeugt.
  • Als nächstes empfängt der Grenzeinfüger 430 die Eingangsbildsequenz und fügt eine Grenze mit fester Breite zu dem Eingangsbild hinzu, um Abgrenzungseffekte (künstliche Kanten mit hohem Kontrast) bei der späteren Filterung und der Pyramidenverarbeitung zu verhindern. Die Eingangsbildsequenz wird nämlich zahlreiche Faltungen durchlaufen, wo die Kante des Bildes eine Kontamination in das Bild einfügen kann, z. B. einen "Wrap-Around"-Fehler bzw. Umgriffsfehler. Die Abgrenzungsbreite wird somit auf die Breite der Auflösungszelle der Ebene niedrigster Auflösung der Kontrastpyramide (unten erörtert) eingestellt. Zwei Typen von Grenzen, Grenze mit festem Wert und kantenwertgesteuerte Grenze, können spezifiziert werden, wie in den 5 bzw. 6 dargestellt ist.
  • 5 stellt eine Ausschnittsansicht einer einzelnen Festwertgrenze 520 dar, die die Kante 510 eines Bildes 530 umgibt. Der feste Wert, dargestellt durch den Buchstaben "s" in der Grenze 520 wird ausgewählt ohne Berücksichtigung der Werte auf der Kante des Bildes.
  • Im Gegensatz dazu zeigt 6 eine Ausschnittsansicht einer kantengesteuerten Grenze 620, die die Kante 610 eines Bildes 630 umgibt. Die Werte in der Grenze 620 werden ausgewählt, so daß sie mit den Werten in der Kante des Bildes übereinstimmen, wodurch die Kante des Bildes um eine vorbestimmte Breite erweitert wird.
  • In 4 wird dann die Eingangsbildsequenz durch den Glätter/Interpolierer (Abfrager) 440 eingestellt, um dem Pixel-zu-Rezeptor-Verhältnis (einschließlich fraktionalen Pixeln und Rezeptoren) Rechnung zu tragen. Der Glätter/Interpolator 440 berücksichtigt nämlich die Situationen, wo die Anzahl von Pixeln größer als die Anzahl von Rezeptoren ist und umgekehrt.
  • Genauer gesagt interpoliert oder glättet der Glätter/Interpolierer 440 jedes Eingangsbild (des Abfrageintervalls ϕ0) getrennt in der horizontalen und vertikalen Richtung mit einer Funktion h und resamplet das Eingangsbild mit Intervallen von 0,5 ϕr (die Hälfte des Photorezeptorabfrageintervalls), um eine "geglättete/interpolierte Bildsequenz" zu erzeugen. In einer Dimension ist h eine auf ein Fenster beschränkte Hamming-Sinc-Funktion (Wichtungsfunktion) mit der kontinuierlichen Darstellung h(z) = [0,53 + 0,47cos(πz/4)]sin(πz)/(πz) (2)für z zwischen –4 und 4 mit h(z) = 0 außerhalb dieses Intervalls.
  • Die Gewichtungsfunktion h wird unterschiedlich angelegt abhängig davon, ob 0,5 ϕr größer oder kleiner als ϕ0 ist. Wenn 0,5 ϕr größer als ϕ0 ist, dann ist h in erster Linie ein Glättungsfilter (Downsampling), der an das Eingangsbild angelegt wird, wodurch sichergestellt wird, daß alle Eingangspixel zu den Ausgangspixeln beitragen.
  • Wenn im Gegensatz dazu 0,5 ϕr geringer als ϕ0 ist, dann verhält sich h in erster Linie als ein Interpolator (Upsampling) auf den wenigen Eingangspixelwerten. Folglich wird die Beziehung der h-Domäne z zu dem Sichtwinkel (in Grad) von der Größe R abhängig gemacht, die ausgedrückt wird als: R = 0,5ϕr0 (3) wobei die Breite von h eingestellt wird zu (8*max(0,5ϕr; ϕ0)). Da R nicht notwendigerweise eine ganze Zahl ist, gibt es ebenso Offsetwerte, die einen Bruchteil eines Pixels ausmachen. Die Pixeloffsetwerte beeinflussen ebenso z in einer nicht-stationären Art und Weise, so daß der Resampling-Algorithmus eine einfache Faltung ist. Diese Randbedingungen führen zu zwei spezifischen Implementierungen.
  • Als erstes, wenn R kleiner als 1 ist, dann bestimmt für jedes Pixel i in dem Eingangsbild die Gewichtungsfunktion h, die um i zentriert ist, die Beiträge der Pixel i zu einer Reihe von neuen Pixeln. Wenn j(i) als der Index des neuen Pixels, das i am nächsten ist, definiert wird, dann ist i/R = j – D, wobei D zwischen –0,5 und 0,5 liegt. Da die Breite der Fensterfunktion h in diesem Fall 8ϕ0 ist, wird z ausgedrückt als: z = (k + D)R (4)wobei k eine neue Pixelposition gemessen von j ist. Der Beitrag des alten Pixels i zu einem neuen Pixel bei j + k ist dann h((k + D)R) mal dem alten Pixelwert bei i.
  • Wenn im Gegensatz dazu R größer als 1 ist, dann berechnet die Gewichtungsfunktion h für jedes neue Pixel j die Beiträge zu j aufgrund aller alten Pixel i. Das Zentrum von h ist bei i(j), dem Index des zu j am nächsten liegenden alten Pixels. Somit ist jR = i – D, wobei D zwischen –0,5 und 0,5 beträgt. Da die Breite der Fensterfunktion h in diesem Fall 4ϕr ist, wird z ausgedrückt als: z = (k – D)R (5)wobei k ein alter Pixelindex gemessen von i ist. Der Beitrag des alten Pixels i – k zu einem neuen Pixel bei j beträgt somit h((k – D)/R) mal dem alten Pixelwert bei i – k.
  • Vor der Durchführung der Glättungs-/Interpolierungsfunktion wird jedoch die Gewichtungsfunktion h durch die Summe über die Breite der h Abfragen geteilt (Ausgabeabfragen, wenn R < 1, und Eingangsabfragen, wenn R > 1). Diese Maßnahme stellt sicher, daß die Energie in dem Glättungs-/Interpolierungsprozeß beibehalten wird.
  • Sobald der Glätter/Interpolierer 440 die Bilder verarbeitet hat, werden dann die Eingangsbilder von dem Falter 450 mit einer Funktion gefaltet, die die Punktverbreiterung annähert, die von der Optik der Augen erzeugt wird, wodurch eine gefaltete Eingangsbildsequenz erzeugt wird. Diese Funktion wird ausgedrückt als: Q(ρ) = 0,952exp(–2,59|ρ|1,36) + 0,048exp(–2,43|ρ|1,74) (6)wobei ρ der Abstand in Bogenminuten (ausgedrückt im Sichtwinkel) von einem Lichtpunkt (gemessen in der Bildebene, wobei angenommen wird, daß deren Normale der Hauptstrahl der Optik der Augen ist) ist und Q(ρ) die Lichtintensität bei einem Abstand ρ relativ zu dem Maximum ist. Diese Funktion wird beschrieben von G. Westheimer in "The Eye as an Optical Instrument" in dem Handbook of Perception and Human Performance (1986).
  • Alternativ dazu kann Gleichung (6) näherungsweise dargestellt werden als ein Punkt von zwei Punktverbreiterungsfunktionen, wobei ρ durch die Netzhautkoordinate x in einem Faktor ersetzt wird, während ρ durch die Netzhautkoordinate y in dem anderen Faktor (ausgedrückt in Bogenminuten) ersetzt wird. Die Punktverbreiterungsfunktion wird somit angenähert durch das Produkt O(x)Q(y), wobei Q() die Funktion ist, die in Gleichung (6) dargestellt wird. In der bevorzugten Ausführungsform wird die optische Verbreiterungsfunktion implementiert durch zunächst Falten des Eingangsbildes mit einer zwei Abfragen langen Rechteckfensterfunktion, bevor eine Faltung mit einer Reihe (oder Zeile) des Bildes stattfindet. Als nächstes wird das Ergebnis um einen Faktor 2 downgesamplet, um das endgültige gefaltete Eingangsbild mit dem Pixelabstand ϕr zu erzielen.
  • Als nächstes kann die Netzhautabfragesektion 330 einen optionalen Angleicher 460 aufweisen für das Durchführen einer optionalen Operation auf den Eingangsbildern, wenn die Fixierungstiefe nicht mit der Bildtiefe übereinstimmt. Die Bildtiefe ist der tatsächliche Abstand des Brennpunktzentrums des Auges zu dem Bild. Die Fixierungstiefe ist der Abstand, bei dem der Betrachter seine/ihre Augen fixiert.
  • Um Veränderungen in der effektiven Bildauflösung mit Veränderungen in dem Abstand zwischen der Bildtiefe und der Fixierungstiefe Rechnung zu tragen, werden geometrische Optiken verwendet, um die Größe eines Unschärfekreises zu berechnen. Die Anwendung des Unschärfekreises auf die gefaltete Eingangsbildsequenz erzeugt eine angepaßte Eingangsbildsequenz.
  • Wenn die Fixierungstiefe DF ist, der Sichtabstand zu dem Schirm D ist, die Tiefe der Netzhaut von der Pupille Di ist und der Pupillendurchmesser d ist, dann wird der Radius r des Unschärfezyklus gegeben durch d/2-mal dem Absolutwert (Di – Di') geteilt durch Di'. Der Parameter Di' ist der Abstand der Netzhaut von der Pupille, der den Schirm vollständig in dem Fokus darstellen würde, wobei Di' durch die Formel für dünne Linsen (1/Di' = 1/Di + 1/DF + 1/D) gegeben ist. Diese Berechnung erfordert die Kenntnis des Abstands Di von der Pupille zu der Abbildungsfläche (d. h. der Netzhaut), was von Westheimer (1986) zu 20,3 mm bestimmt wurde. In der bevorzugten Ausführungsform wird jedoch angenommen, daß die Bildtiefe gleich der Fixierungstiefe ist, um den Berechnungsoverhead zu vereinfachen.
  • Schließlich kann die Netzhautabfragesektion 330 einen optionalen Abfrager bzw. Sampler 470 aufweisen, um dem Effekt des fovealen Sehens gegenüber dem nicht fovealen Sehen Rechnung zu tragen. Das Gebiet der dichtesten Photorezeptorabfragen auf der Retina ist die Fovea, die näherungsweise die inneren zwei (2) Grad um den Fixierungspunkt abdeckt. In diesem Bereich beträgt die lineare Photorezeptordichte näherungsweise 120 Netzhautkegel pro Grad. Außerhalb des fovealen Bereichs fällt jedoch die lineare Dichte der Photorezeptoren als eine in etwa lineare Funktion der Exzentrizität ab.
  • Somit wird das Eingangsbild von der Netzhaut unterschiedlich abgefragt abhängig davon, ob das Bild foveal betrachtet wird. Um diesen Abfrageprozeß des menschlichen Auges zu simulieren, kann der Sampler 470 das Eingangsbild mit einer Dichte von 120 Pixeln pro Grad visuellem Winkel abfragen, um ein "Netzhautbild" 475 aus 512 × 512 Pixeln für das "foveale Sehen" zu erzeugen. In gleicher Weise wird die Abfragedichte für das "nicht-foveale Sehen" berechnet aus dem Ausdruck:
    Figure 00110001
    wobei d die berechnete Dichte ist, e die Exzentrizität in Grad ist und k ein Parameter ist, der auf 0,4 eingestellt wird, wobei der Wert aus psychophysikalischen Daten abgeschätzt wurde, die beschrieben sind in A. Watson in "Detection and Recognition Of Simple Spatial Forms" in Physical and Biological Processing of Images (1983). In der bevorzugten Ausführungsform wird jedoch das foveale Sehen angenommen.
  • Um den Berechnungsoverhead zu reduzieren, wird der Anpasser bzw. Matcher 460 und der Sampler 470 in der bevorzugten Ausführungsform nicht implementiert. Die Fachleute werden erkennen, daß die verschiedenen Komponenten innerhalb der Netzhautabfragesektion 330 optional implementiert werden können oder durch eine ähnliche Verarbeitung ersetzt werden können, um die Anforderungen von unterschiedlichen Anwendungen anzusprechen. Die Eingangssequenzen 210 und 220 von 2 können somit einfach die ursprünglichen nicht-verarbeiteten Eingangsbilder darstellen oder sie können die Netzhautbilder 475 darstellen, die einen oder mehrere der verschiedenen Bildverarbeitungsschritte der Netzhautabfragesektion 330 durchlaufen haben.
  • In 3 beinhaltet die visuelle Diskriminierungsmeßeinrichtung 112 eine Mehrzahl von temporären Filtern 334 und 335, um die Helligkeitskomponente von jeder Eingangssequenz von Bildern in zwei unterschiedliche Kanäle zu trennen. In ähnlicher Weise werden die Farbkomponenten von jeder Bildsequenz von Bildern ebenso über einen zweiten Satz von temporären Filtern 334 und 335 in zwei unterschiedliche Kanäle aufgeteilt. Somit unterliegt jede der beiden Eingangssequenzen der temporären Filterung, um vier Antworten als Eingänge zu dem Ortsdiskriminator 240 zu erzeugen, wie in 2 dargestellt ist.
  • Zwei temporäre Filter, bezeichnet mit h1 335 und h2 334 in 3 werden verwendet, um jede Eingangssequenz in eine temporäre Tiefpassantwort (andauernder Kanal) und eine temporäre Bandpassantwort (transienter Kanal) aufzuteilen, um insgesamt vier Antworten zu erzeugen. Andere temporäre Filter mit unterschiedlichen analytischen Formen können eingesetzt werden mit der Bedingung, daß die grundlegenden Tiefpass- und Bandpassformen beibehalten werden.
  • Der Dauerkanal verwischt temporär effektiv den Eingangsstrom (Bildsequenz), liefert jedoch eine relativ gute Ortsauflösung. Der Ausgang dieses Kanals ist daher ideal für das Betrachten von feinen Details und der Farbmetrik. Umgekehrt verwischt der transiente Kanal den Eingangsstrom örtlich, liefert jedoch eine gute temporäre Auflösung, was ideal ist, um Bewegungs- oder Farbveränderungen in den Eingangsbildsequenzen zu erfassen.
  • Genauer gesagt wenden die beiden temporären Filter die temporäre Filterung an jede Eingangsbildsequenz an, die dargestellt wird durch I(x, t), um zwei gefilterte Sequenzen Jn(x, t) zu erzeugen, was ausgedrückt wird als: Jn(x, t) = I(x, t)*hn(t) (8)wobei n = 1 oder 2 und "*" die temporäre Faltung bezeichnet. In der bevorzugten Ausführungsform kann der temporäre Tiefpassfilter (anhaltende Impulsantwortfunktion) und der temporäre Bandpassfilter (transiente Impulsantwortfunktion) ausgedrückt werden als: h1(t) = aexp(–at)u(t) (9)
    Figure 00120001
    wobei u(t) die Einheitsstufenfunktion ist [u(t) = 0 für t < 0, sonst u(t) = 1], "b" ist eine positive reale Zahl, die auf 84,14 Hz voreingestellt ist, und "a" ist auf 5,2 Hz voreingestellt. Die Kalibrierung unter Verwendung der kontrastempfindlichen Daten von Koenderink und van Doorn "Spatiotemporal Contrast Detection Threshold Surface Is Bimodal", Optics Letters 4, 32–34 (1979) führen zu einem Satz von Werten für a und b, die unten unter Bezug auf die Tabellen 1 bis 3 erörtert werden.
  • Eine Implementierung der temporären Filter beinhaltet das Berechnen der Größen
    Figure 00120002
    die genähert werden können durch die Summationen J'n(x, j) mit dem Zeitindex j, der Ortskoordinaten x und dem Zeitschritt Δt. In der bevorzugten Ausführungsform wird die Größe Δt zu 1/30 Sekunden (die Videoeinzelbildrate) oder zu 1/60 Sekunden (die Videointerlacefeldrate) gewählt.
  • Für die dauernde Impulsantwortfunktion (n = 1) mit ihrer erwarteten Dauer von näherungsweise 0,5 Sekunden wird die Summation adäquat durch eine Straightforward-Abfrage (Delta-Funktion) dargestellt:
    Figure 00120003
    wobei k einen Dummyindex darstellt. Der Term 0,5 Δt in dem Argument von h1 rechnet die Riemann-Summe auf den Mittelpunkt von jedem Intervall ein und entfernt somit die Artefakte aufgrund der anführenden Flanke des negativ-exponentiellen h1(t).
  • Die erwartete Dauer der transienten Antwort (n = 2) ist jedoch von solch kurzer Dauer, daß die Delta-Funktion von Gleichung (12) schlecht durchgeführt werden kann und zu einem Undersampling führt. Für die transiente Antwort modelliert der temporäre Filter die Zeitwellenform g(t) des Einzelbildes, indem sie ein- und ausschaltet. Die Bildsequenz I(x, t) wird dargestellt als:
    Figure 00130001
    wobei ID(x, k Δt) die digitalen Pixelwerte sind und die Ortskoordinate x mitgeführt werden.
  • Weiterhin, da die Darstellung von Gleichung (13) ihre Allgemeinheit nicht verliert, kann sie auf den andauernden Kanal (n = 1) angewendet werden. Somit wird Gleichung (11) ausgedrückt als:
    Figure 00130002
  • Die obige Funktion der Zeit nach Gleichung (14) kann mit jeder Rate (einschließlich der Einzelbildrate) ohne Verlust an Genauigkeit gesamplet werden. Zur Darstellung, wenn Jn mit einer Rate Δt1 gesamplet wird, so daß t = jΔt1, dann wird J'n(x, j) ausgedrückt als:
    Figure 00130003
    wobei τ = jΔt1 – kΔt.
  • Das Integral, das durch Hm dargestellt wird, wird analytisch oder numerisch mit einer feineren temporären Auflösung als Δt bewertet. Somit wird in der bevorzugten Ausführungsform, die für eine Flüssigkristallanzeige geeignet ist, die Funktion g als einfache Rechteckfunktion genommen: g(t) = 1 für 0 < t < Δt, sonst g(t) = 0. Diese Substitution führt zu dem folgenden analytischen Ausdruck für Hm: H(n)(τ) = F(n)(max[0, τ]) – F(n)(max[0, τ – Δt]) (17) wobei F(1)(τ') = –exp(–ατ') (18)
    Figure 00140001
  • Für eine Bildröhre (und ebenso für die Kalibrierungsprozedur, wie sie unten CRT-Daten betreffend beschrieben wird) ist g(t) näherungsweise eine Impulsfunktion, so daß: H(1)(τ) = αexp(–ατ)u(τ) (19a)
    Figure 00140002
  • Schließlich werden die unendlichen Grenzen von Gleichung (15) durch endliche Grenzen ersetzt, die durch die effektive Unterstützung von H(n)(τ) auferlegt werden. Eine konservative Abschätzung dieser Unterstützung ist die folgende: H(1)(τ) ist nicht Null für τ zwischen 0 und (1/a)In(1000) = N(1)Δt; H(2)(τ) ist nicht Null für τ zwischen 0 und 15/b = N(2)Δt. Gegeben seien diese Definitionen für N(1) und N(2) und gegeben sei, daß τ = jΔt1 – kΔt (von den Gleichungen (15)–(16)), dann wird k in Gleichung (15) beschränkt durch: jΔt1/Δt – N(n) < k < jΔt1/Δt (20)
  • Von dieser Beschränkung aus kann die Gleichung (15) durch die folgende endliche Summenapproximierung ersetzt werden:
    Figure 00140003
    wobei c = Δt1/Δt, N(1) =(aΔt)–1In(1000) und N(2) = 15(bΔt)–1. Die unteren und oberen Grenzen der Summe werden entsprechend auf die nächste ganze Zahl abgesenkt und/oder angehoben.
  • Zusammenfassend beinhaltet eine Implementierung der temporären Filter die Anwendung der Gleichungen (17), (18), (19) und (21), die sowohl den andauernden als auch den transienten temporären Kanal (n = 1,2) umfassen. Damit alle erforderlichen Werte von ID(x, kΔt) in Gleichung (21) definiert sind, muß die Bildsequenz IDmax[N(1), N(2)] Einzelbilder vor dem nominellen Startpunkt j = 0 weiten.
  • In 3 wird nach der temporären Filterung jedes der resultieren Helligkeits- und Farbrohsignale von den temporären Filtern empfangen und durch die Kontrasttransformationen 340 und 345 in Einheiten von lokalem Kontrast umgewandelt. Eine "Kontrastpyramide" wird nämlich erzeugt durch Zerlegen des Netzhautbildes in Gaußsche und Laplacesche Pyramiden. Als erstes wird jedes Bild in eine Laplace-Pyramide zerlegt, wie beschrieben wird von P. J. Burt und E. H. Adelson in "The Laplacian Pyramid As A Compact Image Code", IEEE Transactions on Communications (1983).
  • In der bevorzugten Ausführungsform wird die Farbkomponente des Eingangsbildes in einen Satz von sieben (7) Frequenzkanälen oder Bandpass- (Pyramiden-) Ebenen zerlegt mit Peakfrequenzen, die von 32 über 0,5 Zyklen/Grad reichen. Jede Ebene wird durch eine Oktave, d. h. 32, 16, 8, 4, 2, 1 und 0,5 von ihren Nachbarn getrennt. Dann wird der Laplace-Wert an jedem Punkt in jeder Ebene durch den entsprechenden Punkt, der aus der Gaußschen Pyramidenebene zwei Ebenen niedriger in der Auflösung upgesamplet wurde, geteilt. Um nämlich den lokalen Kontrast auf jeder Ebene der Pyramide zu berechnen, wird eine Laplace- (Bandpass-) Pyramide erzeugt durch ein Herabziehen einer auf einer Ebene verwischten Kopie dieser von jeder Gauß-Ebene; das Ergebnis wird durch eine auf zwei Ebenen verwischte Kopie geteilt.
  • Mathematisch kenn eine Implementierung der Kontrastpyramidenoperation (in der kontinuierlichen Domäne) ausgedrückt werden als: Ekn(x, t) = [Jn(x, t)*{Gk(x) – Gk+1(x)}]/[J1(x, t)*Gk+2(x)) (22)wobei Ekn(x, t) der Kontrast an der Pyramidenebene k ist und der Index n = 1 oder 2 (andauernd oder transient), x ist ein zweidimensionaler Positionsvektor, Jn(x, t) ist das Eingangsbild von dem temporären Filter, "*" bezeichnet die 2D-Ortsfaltung und wobei Gk(x) ein Gaußscher Faltungskern ist, der ausgedrückt wird als:
    Figure 00150001
    wobei σk = 2k–1σ1 (24)und σ1 = 0,0068 näherungsweise der visuelle Winkelabstand (in Grad) zwischen den fovealen Photorezeptoren ist. Der exakte numerische Wert von σ1 wird ausgewählt, um einen Pixelabstand von d = 0,238 mm darzustellen, der geradeso auflösbar ist von einem Sichtabstand D von 2000 mm, wobei in diesem Fall σ1 = (d/D)(180/π) Grad des visuellen Winkels ist. Eine detaillierte Beschreibung der Implementierung der Gleichungen (22)–(24), um die Kontrastpyramide zu erzeugen, wird unten erörtert.
  • Weiterhin wird, um der experimentellen Tatsache Rechnung zu tragen, daß örtlich gleichmäßiges Flackern durch das menschliche Auge erfaßbar ist (siehe van Nees et al., "Spatiotemporal Modulation Transfer In The Human Eye", J. Opt. Soc. Am. 57, 1082–1088 (1967)), die allgemeine Form von Gleichung (22) in dem Fall verändert, wo n = 2 und k = 7 (d. h. die niedrigste Auflösung für die transiente Antwort): E72(x, t) = [J2(x, t)*G7(x)]/[J1(x, t)*G9(x)] (25)
  • Diese örtlich nicht entgegengesetzte Form erinnert an die neuralen rezeptiven Felder vom "Typ 2", die von Wiesel und Hubel gefunden wurden, "Spatial and Chromatic Interactions In The Lateral Geniculate Body Of The Rhesus Monkey", J. Neurophysiol. 29, 1115–1156 (1966).
  • 7 stellt ein Verfahren 700 für das Konstruieren einer Kontrastpyramide dar, wie sie in den Gleichungen (22)–(24) oben beschrieben wurden. Das Verfahren 700 beginnt in Schritt 710 und setzt mit Schritt 720 fort, wo eine Gaußsche Pyramide konstruiert wird. Die Gaußsche Pyramide ist eine Darstellung der Funktionen Gk(x), (k = 1, 2, 3 ...) in Gleichung (22). Das ursprüngliche Eingangsbild wird die erste Ebene der Pyramide G1 genannt. Nachfolgende Ebenen mit niedrigeren Auflösungen werden durch eine Operation, die "Reduziere" genannt wird, erhalten.
  • Die Reduziere-Operation wendet einen Tiefpassfilter mit fünf Abgriffen mit Gewichten (1, 4, 6, 4, 1)/16 an das ursprüngliche Eingangsbild G1 sequentiell in jeder Richtung des Bildes an, um ein fließendes bzw. verschwommenes Bild zu erzeugen. Das resultierende verschwommene Bild wird dann mit einem Faktor 2 subgesamplet, um die nächste Ebene G2 zu erzeugen. Das Verfahren 700 wendet die Reduziere-Operation rekursiv auf jede neue Ebene an und stoppt, wenn die oberste Ebene erreicht wird, deren voreingestellter Wert 7 ist.
  • In 7 erzeugt das Verfahren 700 eine Laplace-Pyramide in Schritt 730. Die Laplace-Pyramide ist eine Darstellung der Funktionen Gk(x) – Gk+1(x), (k = 1, 2, 3 ...) in Gleichung (22) und wird aus der Gaußschen Pyramide von Schritt 720 erzeugt. Die k-te Ebene der Laplace-Pyramide Lk wird berechnet aus Lk = Gk – Gk+1. Die Punkt-pro-Punkt-Subtraktion der benachbarten Gauß-Pyramidenebenen erfordert das vorherige Upsampling der Gk+1-Ebene, um die Auflösung der Gk-Ebene durch eine Operation, die "Expandiere" genannt wird, anzupassen.
  • Die Expandiere-Operation upsamplet das Bild von Gk bei der Gauß-Pyramidenebene k um einen Faktor 2 (d. h. zwischen die ursprünglichen Abfragen werden Nullen eingefügt) und das resultierende größere Bild wird mit den Gewichten (1, 4, 6, 4, 1)/16 in sowohl der x- als auch in der y- Richtung gefaltet. Bei der Berechnung der k-ten Ebene Lk der Laplace-Pyramide wird die Expandiere-Operation mit der Punkt-für-Punkt-Subtraktion abgewechselt, d. h. Lk = Gk – expand(Gk+1). Dieser Prozeß wird von dem gröbsten Gauß-Niveau (k = 7) zu dem feinsten Niveau (k = 1) fortgesetzt.
  • In Schritt 740 berechnet das Verfahren 700 eine Kontrastpyramide. Für ein gegebenes Einzelbild t und den temporären Kanal n wird die lokale Kontrastpyramide Ekn(x, t), die durch Gleichung (22) definiert ist, berechnet durch Teilen von jedem Pixelwert auf jeder Ebene der Laplace-Pyramide durch den entsprechenden zwei (2) Ebenen höheren Gauß-Wert, der (durch die Expandiere-Operation) auf die gegenwärtige Laplace-Pyramidenebenengröße interpoliert wird. Geteilt-durch-Null-Fehler werden verhindert durch Hinzufügen einer kleinen Konstante zu dem Divisor (z. B. 1e–10). Ein Korrekturfaktor (unten erörtert) wird mit jeder Ebene der Kontrastpyramide multipliziert, um sicherzustellen, daß der berechnete Kontrast gleich dem ist, der aus einem Sinuswellengitter an dem Scheitelwert von jedem Band berechnet wurde (0,5, 1, 2, 4, 8, 16 und 32 cpd). Sobald die Kontrastpyramide konstruiert wurde, endet das Verfahren 700 in Schritt 750.
  • Zusammenfassend ist das Ergebnis der Kontrastpyramidenoperation eine lokale Differenz geteilt durch ein lokales Mittel, d. h. eine lokale Messung des Kontrasts lokalisiert sowohl im Raum als auch in der Frequenz. Das Ergebnis ist nämlich ein Maß der Größe der lokalen Veränderung geteilt durch die lokale Mittelung für eine Anzahl von unterschiedlichen Skalierungen, die voneinander durch eine Oktave getrennt sind. Für ein Sinusgitter innerhalb des Frequenzpassbandes einer Pyramidenebene ist das resultierende Kontrastmaß näherungsweise äquivalent zu dem Weberkontrast, d. h. (Lmax – Lmin)/Lmean, wobei Lmax, Lmin und Lmean sich auf die maximale, die minimale bzw. die mittlere Helligkeit des Gittermusters beziehen. Diese Kontrastpyramidenoperation wird identisch an die Werte angelegt, die von beiden temporären Filterkanälen ankommen. Ein ähnlicher Prozeß für die Implementierung der Kontrastpyramidenberechnung wird beschrieben von E. Peli in "Contrast in Complex Images", J. Opt. Soc. Am. (1990). Weiterhin kann, obwohl die bevorzugte Ausführungsform eine Kontrastpyramide mit sieben Ebenen beinhaltet, die vorliegende Erfindung modifiziert werden durch Verwendung von Kontrastpyramiden mit irgendeiner Anzahl von Niveaus und/oder anderen Scheitelwertsfrequenzbereichen. Die visuelle Diskriminierungsmeßeinrichtung 112 zeichnet eine Differenz zwischen zwei Eingangsbildsequenzen auf, die bei einem gegebenen Pixel und einem gegebenen Einzelbild sich in ihrer Helligkeit unterscheiden. In der bevorzugten Ausführungsform werden jedoch die Unterschiede in den Farbkomponenten zwischen den beiden Eingangsbildsequenzen ebenso aufgezeichnet, um die Erfassungsfähigkeiten der visuellen Diskriminierungsmeßeinrichtung 112 zu erhöhen.
  • In manchen Fällen wird die Erfassung der Unterschiede in der Farbe durch die visuelle Diskriminierungsmeßeinrichtung sich nicht wesentlich von der des menschlichen visuellen Systems bei der Bewertung der Qualität einer gestörten Videosequenz relativ zu einer ungestörten unterscheiden. Verschiedene Bildartefakte sind jedoch mit einer Farbkomponente leichter bemerkbar als ohne. Diese Artefakte können nicht leicht erfaßt werden durch Analysieren allein der Helligkeitskomponente durch die visuelle Diskriminierungsmeßeinrichtung 112. Ein Beispiel solch eines Artefakts ist die Verschlechterung eines vektorquantisierten gefärbten Bildes einer großen farblosen Region, die sich gleichmäßig von einem Lichtgrau auf einer Seite zu einem Dunkelgrau auf der anderen Seite verändert. Die gleichförmigen Korrekturen der Pastellfarbe ersetzen den kleinen farblosen Gradienten. Diese Korrekturen sind in Farbe weit stärker hervorstechend als in Schwarzweiß. Somit wird die Erfassungsfähigkeit der visuellen Diskriminierungseinrichtung erhöht durch Aufnehmen einer "Farbdifferenzerfassungskomponente" (Farbzusatz) für verschiedene Anwendungen, z. B. bei der Bewertung von Vektorquantisierungsalgorithmen.
  • Zwei Farbzusatzausführungsformen werden unten unter Bezug auf 8 beschrieben. Die beiden Implementierungen benutzen eine ähnliche Architektur, werden jedoch auf unterschiedliche Art und Weise implementiert, um die unterschiedlichen Anforderungen anzusprechen. Eine Ausführungsform wird so implementiert, daß der "Helligkeitsabschnitt" der visuellen Diskriminierungsmeßeinrichtung 112 nicht rekalibriert werden muß. Im Gegensatz dazu stellt die zweite Ausführungsform eine größere Genauigkeit zur Verfügung, erfordert jedoch die Rekalibrierung des "Helligkeitsabschnitts" der visuellen Diskriminierungsmeßeinrichtung.
  • 8 stellt ein Verfahren 800 für das Implementieren des Farbzusatzes der visuellen Diskriminierungsmeßeinrichtung 112 bereit. Das Verfahren 800 beginnt in Schritt 810 und setzt mit Schritt 820 fort, wo die CIE- (Commission Internationale de I'Eclairage) Koordinaten für jedes Bildpixel erzeugt werden.
  • Für jedes Pixel des Eingangsbildes werden die Monitor-RGB- (Rot-, Grün-, Blau-) Werte kombiniert mit bekannten Emissionsspektren des Leuchtstoffs, um die CIE-Koordinaten (X, Y, Z) zu erzeugen, wobei die Farbanpassungsfunktionen, die diesen Koordinaten entsprechen, von der CIE 1931 beschrieben wurden, außer der Korrektur von 1951, die von D. Judd (siehe G. Wyszecki und W. S. Stiles, Color Science, zweite Auflage, Wiley, 1982) durchgeführt wurde.
  • Zusammenfassend werden die Judd-modifizierten CIE-Koordinaten aus den gegebenen digitalen RGB-Werten und den Leuchtstoffemissionsspektren Ei(λ; k0) berechnet, die dem Leuchtstoff i mit der Wellenlänge λ und dem digitalen Wert k0, an dem das Phosphorspektrum gemessen wurde, entsprechen. Da die Leuchtstoffe von kommerziellen Monitoren oder Anzeigen sich von Hersteller zu Hersteller unterscheiden, werden die Werte der Leuchtstoffemissionsspektren typischerweise von dem Empfangsleuchtstoffstandard des National Television Systems Committee (NTSC) erhalten. Die Judd-modifizierten CIE-Farbanpassungsfunktionen xx -((λ), ȳ(λ) und zz -(λ) werden definiert in Wyszecki und Stiles, Color Science, zweite Auflage, Wiley, (1982), die als eine vektorwertige Funktion x(λ) festgelegt werden. Für den Leuchtstoff werden die Farbkoordinaten Xi(k), Yi(k), Zi(k), die dem digitalen Niveau k entsprechen, als ein Vektor Xi(k) definiert, der gegeben ist durch: Xi(k) = Yi(k)[∫x(λ)Ei(λ; k0)dλ]/[∫ȳ(λ)Ei(λ; k0)dλ (26)wobei die Werte Ei(λ; k0) und Yi(k) (k = 0,255) für eine bestimmte Anzeige gemessen werden. Bei gegebenen digitalen Werten ki entsprechend des RGB eines Pixels wird der Farbvektor X = (X, Y, Z) des Pixels berechnet zu: X = X1(k1) + X2(k2) + X3(k3) (27)
  • Die Umwandlung der RGB-Werte in CIE-Koordinaten ist im Stand der Technik gut bekannt. Für eine detaillierte Diskussion siehe G. Wyszecki und W. S. Stiles (1982).
  • In Schritt 830 werden die CIE-Koordinaten von Schritt 820 in die Konusantworten L, M und S (L = empfindlich gegenüber langen Wellenlängen, M = empfindlich gegenüber mittleren Wellenlängen, S = empfindlich gegenüber kurzen Wellenlängen) durch die folgenden Gleichungen umgewandelt: L = 0,15516X + 0,54307Y – 0,03287Z M = –0,15516X + 0,45692Y + 0,3287Z (27a) S = 0,00801Z
  • Diese Transformation ist beschrieben in Wyszecki und Stiles, 1982, Tabelle 2 (8.2.5), die abgeleitet ist von V. Smith und J. Pokorny "Spectral Sensitivity Of The Foveal Cone Photopigments Between 400 And 500 nm", Vision Research 15, 171 (1975). Die Helligkeitskoordinate Y wird ebenso ungestört von Schritt 820 weitergeleitet.
  • In Schritt 840 werden die Ausgaben von Schritt 830 verwendet, um zu drei Farbkoordinaten für jedes Bildpixel zu gelangen, d. h. die Helligkeit Y und der helligkeitsnormalisierte gegenüberliegende Raum (nach Judd "Hue, Saturation And Lightness Of Surface Colors With Chromatic Illumination", J. Opt. Soc. Am. 30, 2, 1940): yb = (S/Y) – (S/Y)D65 (28)und rg = (L/Y) – (L/Y)D65 (29)wobei der Index D65 bedeutet, daß die Farbwerte oder Koordinaten S/Y und L/Y für das CIE-Standardleuchtmittel D65 erhalten werden (siehe G. Wyszecki und W. S. Stiles, 1982, Op. Cit.). Die Koordinaten S/Y und L/Y werden aus dem Konusanregungsraum genommen, der von D. MacLeod und R. Boynton in "Chromaticity Diagram Showing Cone Excitation By Stimuli Of Equal Luminance", J. Opt. Soc. Am. 69, 1183–1185, 1979 aufgestellt wurde. Die Subtraktionskorrektur für das Leuchtmittel wird entnommen von D. Judd (1940, J. Opt. Soc. Am. 30, 2).
  • Unter Bezug auf 3 wird Schritt 840 (nicht in 3 gezeigt) nach der Netzhautabfragesektion 330 implementiert, während die Schritte von 820830 (nicht in 3 gezeigt) im allgemeinen implementiert werden, bevor die Farbkomponenten der Verarbeitung der Netzhautabfragesektion ausgesetzt werden. Die Farbkomponenten der Eingangssequenzen 310 und 320, die in die Netzhautabfragesektion 330 eintreten, werden in Konusantworten (L, M, S) dargestellt. Die Fachleute werden jedoch realisieren, daß die Funktionen, die in den Schritten 820840 durchgeführt werden, in der Netzhautabfragesektion implementiert werden können. Ähnlich zu der obigen Erörterung hängt die Menge der "Netzhaut"-Verarbeitung, wie sie an die Farbkomponenten angewendet wird, von einer bestimmten Anwendung ab. Somit können einer oder mehrere Schritte von 4 auf die Farbkomponenten der Eingangsbildsequenzen angewendet werden.
  • In Schritt 850 werden die Farbkoordinaten von Schritt 840 durch die temporären Filter 335 und 334 geleitet, wie in 3 dargestellt ist. Diese temporären Filter sind identisch zu denjenigen, die an die Farbkomponente des Eingangsbildes angewendet werden, und werden in Übereinstimmung mit den Gleichungen (9) und (10) implementiert. Obgleich zwei temporäre Filter für die Helligkeitskomponente 312 des Eingangsbildes verwendet werden, wird nur ein temporärer Filter (mit der Form von Gleichung (9)) für jede der beiden Farbkomponenten 314 und 316 des Eingangsbildes verwendet, um zwei temporäre Farbantworten zu erzeugen.
  • In Schritt 860 erzeugt das Verfahren 800 eine Kontrastpyramide für jedes Bild der beiden temporären Farbantworten (Kanäle). Die Laplace-Pyramiden werden aus den Bildebenen von Y, yb und rg in Übereinstimmung mit den Schritten 720 und 730 des Verfahrens 700 gemacht. Die Kontrastpyramide für jede Bildebene wird jedoch berechnet durch Teilen des Laplace-Operators des Kanals durch eine Konstante plus das lokale Mittel des absoluten Werts des Kanals: CY = ΔY/(<Y> + Y0) (30) Cyb = Δyb/(|<yb>| + yb0) (31) Crg = Δrg/(|<rg>| + rg0) (32)wobei CY, Cyb und Crg die Kontrastpyramidenwerte bei einer gegebenen Ebene sind, Δ sich auf die Laplace-Pyramide bei dieser Ebene bezieht und <> sich auf den Wert der Gauß-Pyramide zwei Ebenen gröber als die feinste Ebene, die den Laplace-Operator definiert, bezieht. Die Werte Y0, yb0 und rg0 sind Konstanten. Sobald die Kontrastpyramiden erzeugt wurden, endet das Verfahren 800 in Schritt 870.
  • In einer zweiten Farbzusatzausführungsform wird das Verfahren 800 in Bezug auf die Schritte 840 und 860 modifiziert. In Schritt 840 berechnet das Verfahren 800 die Farbkoordinaten für jedes Pixel in Übereinstimmung mit: yb = S (33)und rg = (L – M) (34)
  • In Schritt 860 werden die Kontrastpyramiden für die beiden Farbkanäle konstruiert durch Teilen des Laplace-Pyramidenwertes bei jeder Ebene durch den Gauß-Wert zwei Ebenen gröber von dem Farbkanal statt durch ein lokales Mittel des Farbkanals selbst.
  • Die erste Farbzusatzausführungsform stellt den Vorteil der "Schwarzweißkompatibilität" sicher (d. h. das Verändern des Intensitätsgrads wird nicht die Farbe des Lichts verändern). Im Falle eines Bildes mit einer Farbe von D65 wird eine Bildmetrik bestimmt völlig durch die Farbkontraste ohne Beitrag von den yb- und rg-Kontrasten. Es ist somit nicht notwendig, die visuelle Diskriminierungsmeßeinrichtung 112 zu rekalibrieren, wenn die erste Farbzusatzausführungsform eingesetzt wird. Weiterhin stellen die Subtraktion in Schritt 840 und die Konstanten yb0 und rg0 sicher, daß die größte Farbempfindlichkeit in Übereinstimmung mit der Beobachtung nahe dem Weißpunkt des Monitors (D65) ist. Zusätzlich kann der Laplacesche Pyramidenoperator Δ von Cyb und Crg in den Gleichungen (31) und (32) optional mit dem Gauß-Pyramidenoperator ersetzt werden, der als Basis der Laplace-Pyramide verwendet wurde. Entfernen des Laplace-Operators von den Farbkanälen stellt sicher, daß die Kontrastpyramiden eine Tiefpassortsfilterung mit örtlichen Abschneidefrequenzen bereitstellt, die von der Pyramidenebene abhängen.
  • Im Gegensatz dazu wird, da die Farbwerte oder Farbkoordinaten nicht für das CIE-Standardleuchtmittel D65 in der zweiten Farbzusatzausführungsform erhalten werden, die Rekalibrierung der visuellen Diskriminierungsmeßeinrichtung 112 erforderlich. Diese zweite Ausführungsform stellt eine größere Genauigkeit auf Kosten des Mitsichführens eines Rekalibrierungsoverheads zur Verfügung.
  • Zurück in 3 nimmt die visuelle Diskriminierungsmeßeinrichtung 112 eine Mehrzahl von optionalen orientierten Filtern 350 auf für das Anwenden der Orientierungsfeinabstimmung oder der Filterung zu den Kontrastpyramiden der acht Kanäle.
  • Wenn die Orientierungsfeineinstellung oder das Filtern gewählt wird, dann wird jede Ebene der Kontrastpyramide empfangen und mit einem Satz von vier (4) Paaren von örtlich orientierten Filtern 350 gefaltet, um einen örtlich orientierten Ausgang zu erzeugen.
  • Genauer gesagt stellt 9 ein Blockdiagramm der orientierten Filter 350 dar, die einen Falter 910 und einen Transformator 920 aufweisen. Der Falter 910 weist eine Mehrzahl von örtlich orientierten Filterpaaren auf, wobei jedes Filterpaar aus einer gerichteten zweiten Ableitung einer Gaußschen (in einer der vier Richtungen horizontal, vertikal und der beiden Diagonalen) und ihrer Hilbert-Transformation besteht. Diese Filter enthalten eine logarithmische Bandbreite bei der halben Höhe von näherungsweise 0,7 Oktaven, ein Wert innerhalb des Bereichs von Bandbreiten, der psychophysikalisch abgeleitet wurde von A. Watson in "Summation Of Grating Patches Indicates Many Types Of Detectors At One Retina Location", Vision Res. 22 (1982). In der bevorzugten Ausführungsform ist die Orientierungsbandbreite dieser Filter (d. h. der Winkelbereich, über den der Filterausgang größer als die Hälfte des Maximums ist) näherungsweise 65°. Diese Größe ist leicht größer als die 40°-Feinabstimmung der einfachen Affenzellen, die von DeValois et al. berichtet wurden in "The Orientation And Direction Selectivity Of Cells In Macaque Visual Cortex", Vision Res. 22 (1982) 531–544 und dem 30–60°-Bereich, der psychophysikalisch berichtet wurde von Phillips und Wilson in "Orientation Bandwidths Of Spatial Mechanism Measured By Masking", J. Opt. Soc. Am. (A] 1 (1984) 226–232.
  • Alternativ können örtlich orientierte Filter mit kleineren Bandbreiten eingesetzt werden, es werden jedoch zusätzliche Filter erforderlich, um gleichmäßig den Orientierungsbereich abzudecken, was zu einem Verfahren führt, das berechnungsintensiver, langsamer, jedoch genauer ist. Obgleich die Vorhersagegenauigkeit von manchen Orientierungsmaskierungsdaten somit verschlechtert sein kann, stellt das Einsetzen von Filtern mit vier (4) Orientierungen ein gutes Gleichgewicht zwischen der Leistung und den Kosten zur Verfügung. Die Fachleute werden jedoch realisieren, daß die Anzahl von Filtern in der vorliegenden Erfindung eingestellt werden kann, um eine Anpassung an die Erfordernisse der spezifischen Anwendung zu erfüllen. In der vorliegenden Erfindung werden die örtlich orientierten Filter implementiert durch Verwendung der steuerbaren Filter von W. T. Freeman und E. H. Adelson in "The Design And Use Of Steerable Filters", IEEE Transactions on Pattern Analysis and Machine Intelligence 13 (1991) 891–906.
  • Nach der orientierten Filterung werden die entsprechenden Hilbert-Paare der Filterausgangsbilder von dem Transformierer 920 quadriert und summiert, was zu einer phasenunabhängigen Energieantwort führt: ek,n,θ(xt, t) = (ok,n,θ(xt, t))2 + (hk,n,θ(xt, t)2 (35)wobei θ über die vier Richtungen läuft, n über die zwei temporären Kanäle läuft, k die Pyramidenebene ist und o und h der orientierte Operator und seine Hilbert-Transformation sind. Diese Operation versucht eine breit vorgeschlagene Transformation in dem visuellen Säugetierkortex von einer linearen Antwort unter einfachen Zellen in eine Energieantwort unter komplexen Zellen zu simulieren. Die Phasenunabhängigkeit, die aus dieser Operation resultiert, stellt einige nützliche Eigenschaften zur Verfügung, z. B. veranlaßt sie, daß die visuelle Diskriminierungsmeßeinrichtung 112 weniger empfindlich gegenüber der exakten Position einer Kante ist, was eine Eigenschaft ist, die die menschliche psychophysikalische Leistung zeigt.
  • Zurück in 3 bezieht die visuelle Diskriminierungsmeßeinrichtung 112 einen optionalen Normalisierer 355 ein für das Anwenden einer Normalisierung auf die Kontrastpyramiden. Da die Komplexität der Ortsfilterung mit der Geschwindigkeit verglichen mit den Genauigkeitsanforderungen einer bestimmten Anwendung variieren kann, wird das Quadrat von jedem Ausgangspixel der Kontrastpyramide im allgemeinen mit dem Wert 1/Γkn normalisiert, was nahe der quadrierten Gitterkontrasterfassungsschwelle für diesen temporären Kanal, der Pyramidenebene und der lokalen Helligkeit ist. Bei Bezeichnung der Pyramidenebene durch k (k = 1 ... 7 von der feinsten zu der gröbsten Auflösung) und der temporären Kanäle durch n (n = 1, 2) andauernder bzw. transienter Kanal, werden dann Γk1 durch die folgenden voreingestellten Werte in Tabelle 1 gegeben.
  • Figure 00220001
    TABELLE 1
  • Diese Werte bewirken effektiv, daß der transiente Kanal eine grobe Ortsauflösung hat und umgekehrt. Die Werte, die durch die unten beschriebene Kalibrierung bestimmt werden, sind im allgemeinen Funktionen der durchschnittlichen Netzhautbelichtung B, sind jedoch auf Werte voreingestellt entsprechend B = 200 Trolands. Die Fachleute werden jedoch erkennen, daß andere Γkn-Werte verwendet werden können. In der Tat werden Kalibrierungsverfahren unten bereitgestellt für das Ableiten anderer Γkn-Werte, um verschiedenen Anwendungen oder der Anpassung unterschiedlicher Kalibrierungsdaten Rechnung zu tragen.
  • Zwei Implementierungen werden in Betracht gezogen. Wenn die Orientierungsfeineinstellung oder die Filterung wie oben erörtert wurde gewählt wird, dann wird jede Energie- oder Meßantwort von Gleichung (35) empfangen und durch Γkn normalisiert. Das Ergebnis ist ein Satz von Werten êk,n,θ(x, t) mit einem zusätzlichen Index θ für jeden Orientierungskanal, was ausgedrückt wird als: êk,n,θ(x, t) = Γknek,n,θ(x, t) (36)Wenn jedoch die Orientierungseinstellung nicht gewählt wird, dann werden die normalisierten Ausgänge êk,n,θ(x, t) berechnet als: êkn(x, t) = Γkn{Ekn(x, t)/Mtk, Lk]} (3)wobei Lk, die lokale Durchschnittshelligkeit, gegeben ist durch J1*Gk+2, was im wesentlichen eine Version der Bildsequenz ist, die im Raum und in der Zeit tiefpassgefiltert ist. Mtk, Lk] wird festgelegt als eine Funktion, wo jede Ebene bzw. jedes Niveau der Kontrastpyramide geteilt wird durch den Kontrast, der für einen gerade noch bemerkbaren Unterschied erforderlich ist, der durch die Ortsfrequenz (Pyramidenebene k) und durch die lokale durchschnittliche Helligkeit durch den Gauß-Filter Gk+2(x) bestimmt wird. In Mt wird die Ortsfrequenz νk gegeben durch den Wert, für den die k-te Ebene der Kontrastpyramide am empfindlichsten sein wird, was näherungsweise νk = 1/(2πσk) ist. Die Größen Γkn wurden durch Daten der Kontrastempfindlichkeit als eine Funktion der Orts- und Zeitfrequenzen angepaßt.
  • Alternativ wird Lk durch die durchschnittliche Netzhautbeleuchtung B (in Trolands) über dem gesamten Bild ersetzt. Mt kann somit in die Koeffizienten Γkn aufgenommen werden, wobei êkn(x, t) ausgedrückt wird als: êkn(x, t) = Γkn(B){Ekn(x, t)}2 (38)
  • Die Größen Γkn(B) werden in zwei Stufen bestimmt. Als erstes werden die Größen Γkn(200) angepaßt unter Verwendung der Daten von Koenderink und van Doorn (1979), die bei 200 Trolands der Netzhautbeleuchtung erhalten wurden. Dann werden die Daten von van Nees et al. (1967), die bei verschiedenen anderen Beleuchtungsniveaus erhalten wurden, verwendet, um Γkn(B) für andere Werte von B zu fitten. Das Ergebnis ist eine Nachschlagtabelle für Γkn(B). Die Berechnung von B aus dem Helligkeitsmuster, das die Bildsequenz aufweist, wird unten beschrieben.
  • Weiterhin werden die Kontrastpyramiden für die Farbzusatzausführungsformen durch die Kontrastempfindlichkeitsfunktionen normalisiert, die durch die Daten in einer Kalibrierungsphase des Modells angepaßt werden. Die Kalibrierung kann die Daten beinhalten, wie z. B. die von D. H. Kelly (1983, J. Opt. Soc. Am. 73, 742–750) und K. T. Mullen (1985, J. Physiol. 359, 381–400).
  • In 3 schließt die visuelle Diskriminierungsmeßeinrichtung 112 eine optionale Verstärkungssteuerung 360 ein, um die Querfrequenz- und/oder Querorientierungsmaskierung der visuellen Grenze anzuwenden. Jeder Filterausgang wird nämlich geteilt oder normalisiert durch eine Summe von einigen anderen Filterausgängen, um der Desensibilisierung der menschlichen visuellen Wahrnehmbarkeit unter einer bestimmten Orts- und/oder Zeitfrequenz Rechnung zu tragen.
  • Genauer gesagt wurde beobachtet, daß die menschliche visuelle Sensitivität gegenüber Erhöhungen einer Orts- (oder Zeit-) Frequenz verstärkt wird durch ein bestehendes Signal (oder Stördaten) bei derselben Ortsfrequenz. Solch eine Erhöhung des Schwellwerts ist allgemein als "Maskierung" bekannt (oder sie wird in diesem speziellen Fall als "Inbandmaskierung" bezeichnet).
  • Eine weitere Eigenschaft der menschlichen Wahrnehmbarkeit ist die, daß eine bestimmte Maskierung ebenso auf einer ortstemporären Frequenz oder Orientierung durch Störsignale bei signifikant anderen Frequenzen oder Orientierungen auftritt. Dieser Maskierungseffekt ist allgemein als "Querbewegungsmaskierung" (J. Lubin, nicht veröffentlichte Dissertation, University of Pennsylvania, 1992) oder "Querorientierungsmaskierung" in dem statischen Fall (J. Lubin, "The Use Of Psychophysical Data And Models In The Analysis Of Display System Performance", in Digital Images in Human Vision, Herausgeber A. B. Watson, MIT Press, 1993, S. 177) bekannt. Ähnliche Konzepte wurden ebenso in der Literatur beschrieben (z. B. Heeger, 1991 in Computational Models of Visual Processing, MIT Press).
  • Die Verstärkungssteuerung 360 wendet die Querfrequenz- und/oder Querorientierungsmaskierung der visuellen Grenze an die Kontrastpyramiden an. Abhängig von einer spezifischen Anwendung kann die Verstärkungssteuerung auf den normalisierten Kontrastpyramiden von dem Normalisierer 355 oder auf den von den Orientierungsfiltern 350 orientierungsfeineingestellten Kontrastpyramiden arbeiten. Die Verstärkungssteuerfunktion kann ausgedrückt werden als:
    Figure 00240001
    wobei xc der Eingangspyramidenwert ist, Fc der Ausgangspyramidenwert ist, wi die konstanten Gewichte (voreingestellt auf 1) sind und die Summe über i über alle Ebenen in der Ortspyramide und über alle temporären Kanäle läuft (d. h. 28 Kanäle, die von sieben (7) Ebenen der Kontrastpyramide und vier (4) temporären Kanälen, Helligkeit und Farbe, resultieren). In dem Fall, wo Fc nach der Orientierungseinstellung der Filter 350 läuft, läuft die Summe ebenso über die Orientierungen (d. h. 112 Kanäle, die von vier (4) Orientierungen herrühren). Die Summe läuft jedoch nicht über den gegenwärtigen Kanal c, d. h. i läuft über die Gesamtzahl der Kanäle minus Eins.
  • Der Wert Fc für einen räumlich-zeitlichen (Orientierungs-) Kanal c wird verringert durch Eingaben an irgendeinem anderen Kanal i, wobei der Grad der Reduzierung sich mit wi und xi erhöht. Diese Reduktion in dem Wert von Fc führt zu einer gleichzeitigen Reduktion der Unterschiede zwischen den Bildsequenzen im Kanal c. Auf diese Art und Weise verkörpert die Verstärkungssteuerfunktion von Gleichung (39) die gewünschte räumlich-temporäre Querfrequenzmaskierung. Wenn jedoch nur ein Kanal c die Anregung durch die Bildsequenz empfängt, dann ist Fc = xc, so daß es keine Querfrequenzmaskierung gibt, bis es mehrere Frequenzen gibt.
  • In 3 wendet die Transducersektion (Transducer) 370 eine S-förmige Nichtlinearität an jede Komponente der normalisierten Kontrastpyramide an, um einen Transducerausgang Pkn(x, t) zu erzeugen. Jede Komponente der normalisierten Kontrastpyramide wird nämlich quadriert und derselben Punkt-Nichtlinearität T ausgesetzt, so daß: Pkn(x, t) = T[e2 kn(x, t) (40)wobei die S-förmige Nichtlinearität T ausgedrückt wird als: T(y) = y1,8/(0,315y1,64 + 6,8) (41)wobei y = eknθ(x, t). Die S-förmige Nichtlinearität wird angewendet, um die Löffel- bzw. Kellenform der Kontrastdiskriminierungsfunktionen zu reproduzieren, wie beschrieben wurde von J. Nachmias und R. V. Sansbury in "Grating Contrast: Discrimination May Be Better Than Detection", Vision Res. 14 (1974) 1039–1042. Der Transducerausgang ist somit eine komprimierte, normalisierte Kontrastpyramide für jedes Bild in der Sequenz.
  • Als nächstes haben die räumlich orientierten Filter 350, die oben beschrieben wurden, die Eigenschaft, daß für einen einzelnen Filter bei einer einzelnen Raumposition, der ein Sinusgitter hat, an das er optimal angepaßt ist, der Ausgang als eine Funktion der Anzahl von Zyklen in einer Korrektur sich mit wenig mehr als einem Zyklus annähern wird. Im Gegensatz dazu verbessert sich die foveale menschliche Empfindlichkeit weiter, wenn die Anzahl von Zyklen in der Korrektur auf um 5 ansteigt, wie beschrieben ist in J. Hoekstra et al. in "The Influence Of The Number Of Cycles Upon The Visual Contrast Detection Threshold For Spatial Sinewave Patterns", Vision Research 14 (1974) 365–368.
  • Um diesem Effekt Rechnung zu tragen, kann die visuelle Diskriminierungsmeßeinrichtung 112 eine optionale Zusammenschlußsektion (Pooler) 375 beinhalten. Für foveale Eingaben emp fängt die Zusammenschlußsektion die Transducerausgaben und faltet diese über eine kleine "Umgebung" durch Falten mit einem rechteckförmigen Fovealkern (d0) von 5, um einen gepoolten Ausgang zu erzeugen. Die kleine Umgebung wird nämlich festgelegt als ein 5 × 5-Kern (5 × 5 Photorezeptorraum, d. h. Netzhautpixel) um jeden Punkt auf den Transducerausgängen.
  • Für Exzentrizitäten außerhalb der Fovea erhöht sich der Durchmesser dp dieses Kerns mit einer linearen Funktion der Exzentrizität gemäß dem Ausdruck:
    Figure 00260001
    wobei d0 der foveale Durchmesser (5,0) ist, e die Exzentrizität in Grad (voreingestellt auf 0°) ist und kp ein Skalierungsfaktor ist. Dieser exzentrizitätsabhängige Anstieg bei dem Pooling wird benötigt, um einen exzentrizitätsabhängigen Verlust in der Leistung zu simulieren, der über den hinausgeht, der einem Verlust in der Kontrastempfindlichkeit zuweisbar ist, bei Prozessen, die die genaue relative Lokalisierung der Reizmerkmale erfordern, wie z. B. die Zeichenunterscheidung.
  • Nach der Pooling-Operation ist jede Raumposition von jedem Bild äquivalent zu einem m-dimensionalen Vektor, wobei m die Anzahl der Pyramidenebenen mal der Anzahl von Orientierungen ist. Diese Vektoren werden von der Abstandssektion (Distancer) 380 empfangen, wo der Abstand zwischen diesen Vektoren für die beiden Eingangsbilder berechnet wird.
  • Genauer gesagt werden die komprimierten, normalisierten Kontrastpyramiden für zwei Eingangsbilder (z. B. ein Testbild von der Eingangsbildsequenz A und ein Referenzbild von der Eingangsbildsequenz B) in den Absolutwerten subtrahiert und dann über die sieben Pyramidenebenen einschließlich der temporären Kanäle gemittelt (route-mean-Q-powered), um ein Abstandsmaß (Bildmetrik) 250 zu erzeugen. Die kleineren Pyramidenebenen werden nämlich upgesamplet auf die volle 512 × 512-Größe, wobei das Ergebnis ein Satz von m Arrays Pi(x) (wobei i von 1-m läuft) für jedes Eingangsbild x ist. Aus diesem wird ein Abstandsmaß D(x1, x2, t) wie folgt berechnet:
    Figure 00260002
    wobei x1 und x2 die beiden Eingangsbilder sind (z. B. ein Testbild oder ein Referenzbild) und Q (bekannt als der Minkowski-Exponent) ein Parameter ist, der auf 2 eingestellt ist. (Für Q = 2 spricht dieser Ausdruck dem euklidischen Abstand zwischen den beiden Vektoren.)
  • Die Ausgabe der Abstandssektion 380 dient als eine Bildmetrik 250. Genauer gesagt ist der Ausgang eine räumliche Anordnung von Abstandswerten oder "JND"-Werten, die dann verwendet werden können, um eine "JND-Abbildung" für ein Paar entsprechender Eingangsbilder zu erzeugen, d. h. eines von der Eingangssequenz A und eines von der Eingangssequenz B.
  • 10 stellt ein Verfahren 1000 für das Konstruieren einer JND-Abbildung aus den Kontrastpyramiden dar. Die JND-Abbildung D(x1, x2, t) wird nämlich aus den komprimierten, normalisierten Pyramiden Pkn(x, t) entsprechend einer Implementierung von Gleichung (43) berechnet. Das Verfahren 1000 startet in Schritt 1010 und setzt mit Schritt 1020 fort, wo die Pyramide P für das Einzelbild t von einer Eingangsbildsequenz von der einer anderen Eingangsbildsequenz bei dem Einzelbild t abgezogen wird.
  • In Schritt 1030 wird der innere Minkowski-Exponent Q an jeden Wert in der resultierenden Pyramide angelegt. In Schritt 1040 wird die Expandieroperation, wie oben beschrieben wurde, mit der Addition in einer Kaskade von der gröbsten Pyramidenebene zu der feinsten Pyramidenebene abgewechselt. Beispielsweise wird die Expandieroperation auf das gröbste Niveau (n = 7) angelegt, wobei das Ergebnis zu der nächsten Ebene der Pyramide (n = 6) hinzugefügt wird. Die Expandieroperation wird wiederum erneut durchgeführt, wobei das Ergebnis zu der nächsten Ebene der Pyramide (n = 5) hinzugefügt wird usw., bis die feinste Ebene (n = 1) erreicht wird. In Schritt 1050 wird das resultierende Bild voller Auflösung dem Minkoswki-Exponenten 1/Q ausgesetzt, um die JND-Abbildung zu erzeugen. Das Verfahren 1010 endet in Schritt 1060.
  • Das Verfahren 1010 für das Erzeugen der JND-Abbildung hat einige Ähnlichkeiten mit dem Verfahren 700 für das Erzeugen der Kontrastpyramiden. Beispielsweise sind die Größen σk nicht explizit definiert, sondern entstehen aus der rekursiven Operation der Reduzieroperation. Das ursprüngliche Bild (die erste, n = 1, Gauß-Pyramidenebene) unterliegt der Faltung mit dem Kern (1, 4, 6, 4, 1)/16, um die Pyramide der zweiten Ebene zu erzeugen. Implizit ist der Pixelabstand (d. h. der Abstand der visuellen Rezeptoren) die Basis für alle Werte σk. Insbesondere ist die Standardabweichung der Verteilung (1, 4, 6, 4, 1)/16 1, wobei σ1 ein Interrezeptorabstand ist. Alle Faltungen höherer Ebene mit dem Kern (1, 4, 6, 4, 1)/16 verdoppeln die Breite der Gauß-Funktion. Somit ist σk = 2k–1σ1 von Gleichung (24) eine Näherung.
  • Eine Verbesserung dieser Approximierung wird jedoch erhalten durch das Erkennen, daß die Varianz von jedem nachfolgenden Kern die Summe der Varianz des gegenwärtigen "Gauß" (z. B. 2k–1σ1) ist mit den Varianzen von allen "Gauß-Funktionen" niedriger Ebene. Somit ist
    Figure 00270001
    und daher σk = [(4/3)(1 – 2–2k)]0,52k–1σ1 (45)
  • Gleichung (45) ist wichtig in den analytischen Bewertungen, die eingesetzt werden, um die visuelle Diskriminierungsmeßeinrichtung auf einfache Sinuswelleneingänge zu kalibrieren. Durch die Kalibrierung der visuellen Diskriminierungsmeßeinrichtung durch bestimmte einstellbare Parameter reduziert solch eine analytische Lösung die Berechnungszeit, die benötigt wird, um zu den optionalen Parameterwerten zu gelangen, wie unten erörtert wird.
  • Eine Mehrzahl von anderen Bildmetriken könnte wiederum basierend auf Statistiken, die aus den JND-Abbildungen berechnet werden, erzeugt werden. Im allgemeinen können die Werte über die JND-Abbildung entsprechend einer ähnlichen Abstandsmetrik kombiniert werden, wie oben beschrieben wurde. In der Praxis wird eine von zwei unterschiedlichen Kombinationen eingesetzt, z. B. der Durchschnitt über die Abbildung oder das Maximum, d. h. ein einfaches Maximum über alle Werte von x und t:
    Figure 00280001
  • Für Diskriminierungsaufgaben ist letztere die nützlichere Statistik, während für Bildqualitätsbewertungsaufgaben erstere die nützlichere Statistik ist.
  • Somit kann der JND-Wertausgang in einen Wahrscheinlichkeitswert umgewandelt werden. Die tatsächlichen Wahrscheinlichkeitswerte auf den JND-Abbildungen werden in Begriffen, die JNDs genannt werden, kalibriert, wobei 1 JND eine 75%-ige Wahrscheinlichkeit entspricht, daß ein Beobachter, der die beiden Eingangsbilder mehrere Male betrachtet, in der Lage wäre, den Unterschied zu sehen. JNDs von größer 1 werden dann inkrementell berechnet.
  • Obgleich die visuelle Diskriminierungsmeßeinrichtung 112 den räumlichen Diskriminierungsabschnitt 240 in der bevorzugten Ausführungsform verwendet, ist die vorliegende Erfindung nicht auf diese spezifische Implementierung beschränkt. Andere örtliche Diskriminierungsvorrichtungen oder -verfahren können eingesetzt werden in der vorliegenden Erfindung, um ähnliche Resultate zu erzielen.
  • Um dies darzustellen, kann die Komplexität der Diskriminierungssektion 240 reduziert werden durch Entfernen der räumlich orientierten Filter 300. In der Tat können abhängig von einer bestimmten Anwendung eine oder mehrere der Verarbeitungssektionen 355380 der Raumdiskriminierungssektion 240 weggelassen werden. Eine dramatische Vereinfachung ersetzt einen wesentlichen Abschnitt der räumlichen Diskriminierungssektion mit einer einfachen mittleren Quadratfehlerberechnung. Für manche Anwendungen würde die Vereinfachung eine kaum bemerkbare Verschlechterung in der Genauigkeit erzeugen, das System könnte jedoch von einer signifikanten Verbesserung in der Berechnungsgeschwindigkeit profitieren. In gleicher Weise können die verschiedenen Transformationen, die von der Netzhautabfragesektion 330 (oder der gesamten Netzhautabfragesektion 330) durchgeführt werden, ebenso ausgelassen oder modifiziert werden, um die Komplexität der visuellen Diskriminierungseinrichtung 112 zu minimieren.
  • Weiterhin werden, obgleich die vorliegende Erfindung eine Mehrzahl von temporären Filtern, Kontrastpyramidentransformationen und orientierten Filtern beschreibt, die Fachleute erkennen, daß die visuelle Diskriminierungsmeßeinrichtung vereinfacht werden kann durch Reduzieren der Anzahl von Filtern. Um dies darzustellen, können die Multiplexer verwendet werden, um die temporären Filter 334335, die Kontrastpyramidentransformationen 340345 und die orientierten Filter 350 gemeinsam zu nutzen.
  • Weiterhin ist die visuelle Diskriminierungsmeßeinrichtung 112 in der Lage, viele genaue Vorhersagen zu erzeugen ohne irgendeine Neueinstellung ihrer Parameter. Um diese Robustheit zu erzielen, wird die Kalibrierung der visuellen Diskriminierungsmeßeinrichtung in Übereinstimmung mit der unten erörterten Kalibrierungsprozedur durchgeführt.
  • Die visuelle Diskriminierungsmeßeinrichtung wird kalibriert unter Verwendung der visuellen Kontrastempfindlichkeitsdaten, die von Koenderink und van Doorn (1979), die bei einem einzelnen mittleren Helligkeitsniveau erhalten wurden, und den Daten, die von van Nees et al. (1967) bei verschiedenen mittleren Beleuchtungsniveaus berichtet wurden. Der Reiz ist eine gleichstromvorgespannte räumlich-temporäre Sinuskurve, die durch ein quadratisches Fenster mit einer Breite von 4° des visuellen Winkels abgeschnitten ist. Dieser Reiz erlaubt es, daß die visuelle Diskriminierungsmeßeinrichtung (für die Zwecke der Kalibrierung) durch ein "einfaches Modell" ersetzt wird, in dem viele der Raum-Zeit-Integrale analytisch durchgeführt werden. Unter Verwendung des einfachen Modells werden Werte für etliche freie Parameter erhalten.
  • Der erste Schritt in der Kalibrierung bestimmt die Werte für die Impulsantwortparameter A und B und ebenso die Gewichte Γkn(200), die verwendet werden, um die transienten Kontrastpyramiden zu normalisieren. Die Modellanpassungen werden mit der 200 Troland räumlich-temporären Kontrasterfassungsfläche durchgeführt, die von Koenderink und van Doorn (1979) präsentiert wurde. Dieses Experiment legt eine Einzelbildrate von 61 Hz und eine räumliche Sinuswelle an, die in einem Fenster enthalten ist, das 4° des visuellen Winkels umfaßt. Das Ziel ist es, die nicht bestimmten Parameter einzustellen, um den Fit an 1 der Größen JND(α, ω) zu optimieren, wobei die Funktion JND in Gleichung (46) beschrieben wird, α = 2π∫s, ω = 2π∫t und fs und ft sind die räumlichen und temporären Frequenzen der experimentellen Sinuskurve (jeweils in Zyklen pro Grad und in Hz). Die folgende Zielfunktion wird in dieser Kalibrierung minimiert:
    Figure 00290001
  • Die impliziten Eingaben in diese Rechnung sind die experimentellen Kontrastschwellwerte M(α, ω), die in der Eingangsbildsequenz S(xS, t) ersetzt werden. Die ursprüngliche Bildsequenz wird durch die räumlich-temporäre Helligkeitsverteilung S(xS, t) charakterisiert, wobei xS die zweidimensionalen Ortskoordinaten der Anzeige darstellt und t die verstrichene Zeit ist.
  • Im Ablauf der Parameteranpassung wurde ermittelt, daß der Minkowski-Exponent Q zufriedenstellende Fits ergibt, wenn er gleich 2 gesetzt wird. Die Bildgröße beträgt 4° (Grad) des visuellen Winkels und der Blickabstand wird auf zwei Meter eingestellt, so daß die Pixeldichte mit dem Interrezeptorabstand auf der Netzhaut kommensurabel ist. Das Ergebnis ist eine Bildgröße von 584 × 584 Pixeln. Um die adäquate temporäre Abfrage eines gegebenen sinusförmigen Reizes (der Frequenz f0) sicherzustellen, wird das Intereinzelbildintervall als Δt = 1/(f0Nf) genommen, wobei Nf die Anzahl von Einzelbildern pro Zyklus der Sinuswelle ist, und als eine ganze Zahl eingestellt wird bis hinunter zu 2 und hinauf zu 50, abhängig von der temporären Frequenz. Da die Eingangswellenform eine Kosinuswelle bekannter Phase ist, könnten die Abfragen an den Extrema des Kosinus abgefragt werden. Es gibt somit keine Notwendigkeit, mit einer höheren Frequenz als der Nyquist-Rate abzufragen. Beschränken von Δt auf mindestens 0,065 Sekunden stellt sicher, daß die Niederfrequenzsinuswellen nur niederfrequente visuelle Kanäle anregen. Für größere Δt würden somit die Einzelbildübergangsdiskontinuitäten (künstlich) die temporären Kanäle stimuliert haben, die auf die Einzelbildrate und nicht auf f0 eingestellt sind. Die Länge der Faltung mit h1 wird gleich (1/a)In(1000) eingestellt, um eine geeignete Abdeckung der Unterstützung von h1 sicherzustellen, und die Länge der Faltung mit h2 wird gleich 15/b eingestellt. (Hier haben a und b Einheiten in Hz.)
  • Die folgenden Parameterwerte werden durch den Kalibrierungsprozeß erhalten: für k = 1,7 (Pyramidenebene), n = 1,2 (andauernder gegenüber transienter temporärer Kanal), a = 5,200 Hz, b = 84,14 Hz; Γkn(200) sind wie in Tabelle 1 oben.
  • Weiterhin stellen Tabelle 2 und Tabelle 3 Γkn(200) dar, verglichen mit anderen Gamma-Werten Γkn(B), die für räumlich-temporäre Kontrasterfassungsflächen mit anderen Troland berechnet sind, d. h. Γkn(0,085), Γkn(0,85), Γkn(8,5), Γkn(85), Γkn(850) und Γkn(8500). Die Tabelle 2 und die Tabelle 3 enthalten Gamma-Werte für den andauernden (n = 1) bzw. den transienten Kanal (n = 2).
  • Figure 00300001
    TABELLE 2
  • Figure 00310001
    TABELLE 3
  • Der zweite Kalibrierungsschritt bestimmt die Werte von Γkn(B) bei verschiedenen Helligkeiten B unter Verwendung der Daten von van Nees et al. (1967). Dieselbe Bildgröße (4°), der Sichtabstand (2 m), die zeitlichen Integrationsgrenzen und die Zeitverteilung Δt werden in dem ersten Kalibrierungsschritt oben ausgewählt. Für jede Helligkeit B wird die Größe optimiert durch:
    Figure 00310002
    wobei die JND-Werte über die Gleichung (46) gefunden werden unter Verwendung der experimentellen Eingaben α, ω, B und der abhängigen experimentellen Variablen M(α, ω, B). Die Parameter Γkn(B) sind identisch zu den Werten, die oben für B = 200 aufgelistet sind.
  • Die Kalibrierung der visuellen Diskriminierungsmeßeinrichtung 112 basiert auf einem vereinfachten Reiz, der aus einer räumlich-temporären Sinuskurve, die durch ein Fenster begrenzt ist, auf einem gleichförmigen Hintergrund besteht. Solch eine Vereinfachung ermöglicht es, daß mehrere der VDM-Faltungsintegrale analytisch durchgeführt werden, was zu einer beachtlichen Einsparung von Berechnungszeit während der Optimierungen, die für die Kalibrierung und die Parametereinstellung notwendig sind, führt.
  • Unter Verwendung eines einfachen Modells wird das räumliche Fenster ignoriert, so daß die Eingangswellenform gegeben ist durch: I(x, t) = B[1 + M(α, ω, B)cosαxcosωt] (49)wobei M(α, ω, B) experimentell erhaltene Modulationsschwellwerte sind, B die durchschnittliche Netzhautbeleuchtung (in Trolands) ist, α = 2π∫S, ω = 2π∫t und fs und ft die räumliche und zeitliche Frequenz der experimentellen Sinuskurve ist (jeweils in Zyklen pro Grad und in Hz).
  • Ist diese Form für den angenommenen Reiz gegeben, so hat das einfache Modell zwei Realisierungen, eine für die isoluminante Kalibrierung und die andere für eine allgemeinere Kalibrierung. Diese Realisierungen werden unten getrennt beschrieben.
  • Unter Verwendung von Gleichung (49) können die Zeitfaltungsintegrale in Gleichung (8) analytisch durchgeführt werden, eine bessere Übereinstimmung mit dem realen Modell wird jedoch erhalten durch eine diskrete Faltung der Wellenform mit den Impulsantwortzeitserien, die aus den Gleichungen (19a)–(19b) erhalten werden. Für den Kanal n (n = 1 für anhaltend, n = 2 für transient) werden die Zeitreihen (mit Δt1 = Δt und Zeitindex m) zu: H(1)m = aexp(–maΔt) (50)und
    Figure 00320001
  • Das Zeitinkrement Δt ist derart definiert, daß es so weit wie möglich der Einzelbildrate entspricht (61 Hz), jedoch eine ganzzahlige Anzahl von Einzelbildern per Zyklen hat. Somit: Δt = 1/(ftNf) (52)wobei Nf = 2 (für ft > 30 Hz), 8 (für ft zwischen 7 und 30 Hz), 32 (für ft zwischen 1 und 7 Hz) und 50 anderenfalls. Der Term Δt ist auf mindestens 0,065 Sekunden beschränkt.
  • Als nächstes werden die diskreten zeitlichen Impulsantwortfunktionen numerisch mit cos(mωΔt) gefaltet, um gefilterte Zeitwellenformen Jm (1), Jm (2) zu erzeugen. Von der Periodizität der Kosinuswelle muß nur eine Kosinusperiode (m > 2π/ωΔt) von Jm (1), Jm (2) berechnet werden. Nämlich, Anwenden von Gleichung (21) und einer diskreten Form von Gleichung (8):
    Figure 00320002
  • Der erste Term in Gleichung (53) ist eine Konstante im Raum, so daß die Laplace-Pyramide diesen Term entfernen wird, was die Größe BΔtM(α, ω, B)cos(αx)Jm (n) als den einzig effektiven Term in J'n(x, m) hinterläßt.
  • Als nächstes führt die räumliche Faltung von cos(αx) mit dem Gauß Gk(x) in Gleichung (23) zu dem Ausdruck:
    Figure 00330001
    Γkn(B) getrennt für verschiedene Werte von B gefunden, jedoch mit a und b fixiert, wie durch die Kalibrierung bei B = 200 Trolands bestimmt.
  • 11 stellt ein Verfahren 110 für das Bewerten der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen dar für das Verbessern der Bildwiedergabetreue und visueller Aufgabenanwendungen. Das Verfahren 1100 beginnt in Schritt 1110 und setzt mit Schritt 1115 fort, wo das Verfahren bestimmt, ob die Eingangsbildsequenzen Farbkomponenten enthalten. Wenn die Abfrage bestätigend beantwortet wird, dann setzt das Verfahren 1100 mit Schritt 1117 fort, wo die RGB-Werte für jedes Pixel mit bekannten Emissionsspektren des Leuchtmittels kombiniert werden, um die CIE-Koordinaten zu erzeugen.
  • Wenn die Abfrage negativ beantwortet wird, setzt das Verfahren 1100 mit Schritt 1120 fort, wo die Eingangsbildsequenz "time resampled" bzw. erneut in der Zeit gesamplet wird, um der Begrenzung des menschlichen Auges bei der Verarbeitung von hohen Sequenzen mit hohen Einzelbildraten Rechnung zu tragen. Das Resampling findet jedoch nicht statt, bevor die ursprüngliche (Eingangsbild-) Einzelbildrate 200 Hz oder höher ist. Zusätzlich kann die Antwort auf die Anfrage von Schritt 1115 selektiv bestimmt werden, um die Anwesenheit von irgendeiner Farbkomponente für die Zwecke der Reduzierung des Berechnungsoverheads einer spezifischen Anwendung zu ignorieren.
  • In Schritt 1119 werden die CIE-Koordinaten von Schritt 1117 in Kegelantworten transformiert, die dann verwendet werden, um zu anderen Farbkoordinaten in Schritt 1162 zu gelangen, wie unten beschrieben wird. Das Verfahren 1100 setzt dann mit Schritt 1120 fort.
  • In Schritt 1125 werden die Eingangsbilder resamplet, um den Interpixelabstand, die Größe der Pixel und den Betrachtungsabstand der Eingangsbilder mit dem Interrezeptorabstand und der Größe des Rezeptors der Netzhaut zu korrelieren. Das Verfahren 1100 berechnet eine Winkelabschneidung für jedes Pixel, wie es von dem Betrachter in Übereinstimmung mit Gleichung (1) gesehen wird.
  • In Schritt 1130 fügt das Verfahren 1100 eine Grenze mit fester Breite in jedes Eingangsbild ein, um Grenzeffekte zu verhindern. Zwei Grenztypen, Grenze mit festem Wert und kantenwertgesteuerte Grenze, können angewendet werden abhängig von der Anwendung.
  • In Schritt 1135 stellt (glättet/interpoliert) das Verfahren 1100 die Eingangsbildsequenzen ein, um dem Pixel-zu-Rezeptor-Verhältnis Rechnung zu tragen. Wenn nämlich die Anzahl von Pixeln größer als die Anzahl von Rezeptoren ist, setzt das Verfahren 1100 das "Downsampling" bei den Eingangsbildern ein. Wenn die Anzahl von Rezeptoren größer als die Anzahl von Pixeln in dem Eingangsbild ist, wendet das Verfahren 1100 das "Upsampling" auf die Eingangsbilder an. Die Glättungs-/Interpolierungsoperation wird in Übereinstimmung mit den Gleichungen (2–5) durchgeführt, wie oben beschrieben.
  • In Schritt 1140 werden die Eingangsbildsequenzen transformiert, um die Punktverbreiterung durch die Optik des menschlichen Auges anzunähern. Das Verfahren 1100 faltet die Eingangsbilder mit der Funktion von Gleichung (6).
  • In Schritt 1145 bestimmt das Verfahren, ob die Fixierungstiefe gleich der Bildtiefe ist. Wenn die Anfrage bestätigend beantwortet wird, dann setzt das Verfahren 1100 mit Schritt 1140 fort, wo die Eingangsbilder erneut gesamplet werden, um die Netzhautbilder zu erzeugen. Wenn die Anfrage negativ beantwortet wird, setzt das Verfahren 1100 mit Schritt 1147 fort, wo ein "Unschärfekreis" berechnet wird und mit den Eingangsbildern gefaltet wird, um den Veränderungen in der effektiven Bildauflösung mit den Veränderungen in dem Unterschied zwischen der Bildtiefe und der Fixierungstiefe Rechnung zu tragen.
  • In Schritt 1150 versucht das Verfahren 1100, den Abfrageprozeß des menschlichen Auges zu simulieren. Effektiv wird jedes Eingangsbild mit einer Dichte von 120 Pixeln pro Grad visuellem Winkel abgefragt, um ein "Netzhautbild" von 512 × 512 Pixeln für das "foveale Sehen" zu erzeugen. Für das "nicht-foveale Sehen" fragt Schritt 1150 das Eingangsbild mit einer Dichte ab in Übereinstimmung mit Gleichung (7).
  • In Schritt 1160 bestimmt das Verfahren 1100 erneut, ob die Eingangsbildsequenzen Farbkomponenten enthalten. Wenn die Abfrage bestätigend beantwortet wird, setzt das Verfahren 1100 mit Schritt 1162 fort, wo die Konusantworten von Schritt 1119 verwendet werden, um zu anderen drei Farbkoordinaten in Übereinstimmung mit den Gleichungen 28–29 zu gelangen. Wenn die Abfrage negativ beantwortet wird, setzt das Verfahren 1100 mit Schritt 1165 fort. Erneut kann die Antwort auf die Abfrage von Schritt 1160 selektiv bestimmt werden, um die Anwesenheit jeglicher Farbkomponenten zu ignorieren für die Zwecke der Reduktion des Berechnungsoverheads einer spezifischen Anwendung.
  • In Schritt 1165 wird die temporäre Filterung auf die Netzhautbilder angewendet, um die Helligkeitskomponente von jedem Eingangsbild in zwei temporäre Kanäle, einen dauernden Kanal und einen transienten Kanal, aufzuteilen. Optional werden die Farbkomponenten von jeder Eingangssequenz der Bilder ebenso in zwei unterschiedliche Kanäle getrennt, wodurch vier temporäre Antworten für jede der zwei Eingangssequenzen erzeugt werden. Die Funktionen der zwei temporären Filter werden in den Gleichungen (9) und (10) ausgedrückt.
  • In Schritt 1170 wird eine Kontrastpyramide erzeugt durch Zerlegen jedes Bildes, das von Schritt 1165 in Übereinstimmung mit den Gleichungen (22–25) und 7 (wie es für die Farbkomponente modifiziert ist) erzeugt wird. Jede Kontrastpyramide enthält sieben Frequenzkanäle oder Pyramidenebenen.
  • In Schritt 1175 bestimmt das Verfahren 1100, ob die Orientierungsfilterung ausgewählt wird. Wenn die Abfrage negativ beantwortet wird, setzt das Verfahren 1100 mit Schritt 1180 fort. Wenn die Abfrage bestätigend beantwortet wird, setzt das Verfahren 1100 mit Schritt 1177 fort, wo die Orientierungsfilterung angelegt wird.
  • In Schritt 1177 werden räumlich orientierte Filter an jede Kontrastpyramide angelegt, wo die Ausgangsbilder dann in Schritt 1179 in Übereinstimmung mit Gleichung (35) transformiert werden, um die Umwandlung der linearen Antwort zwischen einfachen Zellen in eine Energieantwort unter komplexen Zellen in dem visuellen Säugetierkortex zu simulieren.
  • In Schritt 1180 normalisiert das Verfahren 1100 jede Kontrastpyramide mit einem Satz von Gewichtungsfaktoren, um der Kontrastempfindlichkeitsfunktion des menschlichen Auges Rechnung zu tragen. Die Gewichtungsfaktoren werden berechnet durch Verändern des Wertes des Kontrastnormalisierungsterms Γkn (in Übereinstimmung mit den Tabellen 1–3) für jede Pyramidenebene und jeden temporären Kanal.
  • In Schritt 1185 wendet das Verfahren 1100 die Querfrequenz- und/oder die Querorientierungsmaskierung der visuellen Grenze an die Kontrastpyramiden an. Jeder Kontrastpyramidenwert (Eingangspyramidenwert) wird nämlich geteilt oder normalisiert durch eine Summe von einigen anderen Kontrastpyramidenwerten, um der Desensibilisierung der menschlichen visuellen Wahrnehmung unter bestimmten räumlichen und/oder temporalen Frequenzen Rechnung zu tragen. Der resultierende Kontrastpyramidenwert (Ausgangspyramidenwert) wird in Übereinstimmung mit Gleichung (39) berechnet.
  • In Schritt 1190 wendet das Verfahren 1100 eine S-förmige Nichtlinearität an jede Komponente der normalisierten Kontrastpyramide in Übereinstimmung mit den Gleichungen (40–41) an, um einen Transducerausgang zu erzeugen. Der Transducerausgang stellt eine komprimierte, normalisierte Kontrastpyramide für jedes Bild in der Eingangsbildsequenz dar.
  • In Schritt 1195 wendet das Verfahren 1100 eine Pooling-Operation an die Transducerausgaben von Schritt 1190 an. Die Pooling-Operation ermittelt die Energieantwort über eine kleine Umgebung durch Falten mit einem scheibenförmigen Kern einer bestimmten Durchmessergröße. Für Reizexzentrizitäten innerhalb der Fovea wird der "foveale" Durchmesser auf 5 eingestellt. Für Reizexzentrizitäten außerhalb der Fovea wird der Durchmesser dp in Übereinstimmung mit Gleichung (42) berechnet. Nach der Pooling-Operation ist jede räumliche Position jedes Bildes äquivalent zu einem m-dimensionalen Vektor.
  • In Schritt 1197 wird der Abstand zwischen diesen Vektoren für zwei entsprechende Eingangsbilder berechnet. Kleinere Pyramidenebenen werden auf die volle 512 × 512-Größe upgesamplet und der Abstand wird in Übereinstimmung mit Gleichung (43) und 10 berechnet, um eine räumliche Anordnung von Abstandswerten zu erzeugen.
  • In Schritt 1198 kann die räumliche Anordnung von Abstandswerten verwendet werden, um verschiedene Bildmetriken zu erzeugen, wie z. B. eine Wahrscheinlichkeitsvorhersage. Das Verfahren 1100 endet dann in Schritt 1199.
  • Es wurde somit ein neues Verfahren und eine Vorrichtung gezeigt und beschrieben für das Bewerten der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen für das Verbessern der Bildwiedergabetreue und der visuellen Aufgabenanwendungen. Viele Veränderungen, Modifikationen, Variationen und andere Verwendungen und Anwendungen der vorliegenden Erfindung werden sich jedoch dem Fachmann ergeben nach Betrachtung dieser Beschreibung und der begleitenden Zeichnungen, die Ausführungsformen hiervon zeigen. All solche Veränderungen, Modifikationen, Variationen und andere Verwendungen und Anwendungen, die nicht von dem Schutzbereich der Erfindung abweichen, werden als durch die Erfindung abgedeckt betrachtet, die nur durch die Ansprüche beschränkt sein soll, die folgen.

Claims (10)

  1. Vorrichtung für die Bewertung der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen mit einer Mehrzahl von Eingangsbildern, wobei jedes der Eingangsbilder eine Farbkomponente und eine Helligkeitskomponente hat, wobei die Vorrichtung aufweist: eine temporäre Filtereinrichtung (230) für das Herausfiltern der Farbkomponenten von jeder der Eingangsbildsequenzen in eine erste temporäre Tiefpaßantwort und für das Herausfiltern der Helligkeitskomponente aus jeder der Eingangsbildsequenzen in eine zweite temporäre Tiefpaßantwort und eine temporäre Bandpaßantwort und einen räumlichen Diskriminator (240), der mit der temporären Filtereinrichtung verbunden ist, für das Erzeugen einer Bildmetrik aus den temporären Tiefpaß- und Bandpaßantworten aus sowohl der Helligkeits- als auch der Farbkomponenten der Eingangsbildsequenzen.
  2. Vorrichtung nach Anspruch 1, wobei die temporäre Filtereinrichtung aufweist: ein erstes temporäres Filter (334, 335), das mit dem räumlichen Diskriminator verbunden ist, für das Herausfiltern der Farbkomponenten aus der ersten Eingangsbildsequenz und einen zweiten temporären Filter (334, 335), der mit dem räumlichen Diskriminator verbunden ist, für das Herausfiltern der Farbkomponenten aus der zweiten Eingangsbildsequenz.
  3. Vorrichtung nach Anspruch 1, wobei der räumliche Diskriminator aufweist: eine Kontrasttransformation (340, 345) für das Berechnen einer Kontrastpyramide mit einer Mehrzahl von Ebenen für jedes Bild der Tiefpaß- und Bandpaßtemporärantworten und eine Verstärkungssteuerung (360), die mit der Kontrasttransformation verbunden ist, für das Anwenden einer Überkreuzmaskierung von visuellen Grenzwerten auf die Kontrastpyramiden.
  4. Vorrichtung nach Anspruch 1, wobei die temporäre Filtereinrichtung derart betreibbar ist, daß sie die Farbkomponenten in eine erste temporäre Tiefpaßantwort und eine weitere temporäre Bandpaßantwort filtert.
  5. Vorrichtung für das Bewerten der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen mit einer Mehrzahl von Eingangsbildern, wobei die Vorrichtung aufweist: einen temporären Filter (230) für das Herausfiltern einer temporären Tiefpaßantwort und einer temporären Bandpaßantwort aus jeder der Eingangsbildsequenzen und einen räumlichen Diskriminator (240), der mit dem temporären Filter verbunden ist, für das Erzeugen einer Bildmetrik aus den temporären Tiefpaß- und Bandpaßantworten, wobei der räumliche Diskriminator eine Kontrasttransformation (340, 345) aufweist für das Berechnen einer Kontrastpyramide mit einer Mehrzahl von Ebenen für jedes Bild der temporären Tiefpaß- und Bandpaßantworten und wobei der räumliche Diskriminator weiterhin eine Verstärkungssteuerung (360) aufweist, die mit der Kontrasttransformation verbunden ist, für das Anwenden einer Kreuzmaskierung der visuellen Grenze auf die Kontrastpyramiden.
  6. Verfahren zur Bewertung der Sichtbarkeit von Unterschieden zwischen zwei Eingangsbildsequenzen mit einer Mehrzahl von Eingangsbildern, wobei jedes der Eingangsbilder eine Farbkomponente und eine Helligkeitskomponente enthält, wobei das Verfahren die Schritte aufweist: a) Herausfiltern der Farbkomponente aus jeder der Eingangsbildsequenzen in eine erste temporäre Tiefpaßantwort, a1) Herausfiltern der Helligkeitskomponenten aus jedem der Eingangsbildsequenzen in eine zweite temporäre Tiefpaßantwort und eine temporäre Bandpaßantwort und b) Diskriminieren der temporären Tiefpaßantworten und der temporären Bandpaßantworten, um eine Bildmetrik zu erzeugen.
  7. Verfahren nach Anspruch 6, das weiterhin die Schritte aufweist: a') Erzeugen eines Satzes von Farbkoordinaten für jedes Bildpixel des Eingangsbildes aus den Eingangsbildsequenzen, wobei die Eingangsbildsequenzen zu dem Filterschritt a) die Farbkoordinaten aufweisen.
  8. Verfahren nach Anspruch 7, wobei der Erzeugungsschritt a') die Schritte aufweist: a'1) Erzeugen von CIE (Commission Internationale de I'Eclairage)-Koordinaten für alle Bildpixel des Eingangsbildes von den Eingangsbildsequenzen, a'2) Umwandeln der CIE-Koordinaten in Kegelantworten und a'3) Erzeugen des Satzes von Farbkoordinaten aus den Kegelantworten.
  9. Verfahren nach Anspruch 6, wobei der Diskriminierungsschritt b) die Schritte aufweist: b1) Erzeugen einer Kontrastpyramide mit einer Mehrzahl von Ebenen für jedes Bild der temporären Tiefpaß- und Bandpaßantworten und b2) Anwenden einer Kreuzmaskierung der visuellen Grenze auf die Kontrastpyramiden.
  10. Verfahren nach Anspruch 6, wobei der Filterschritt a) das Filtern der Farbkomponenten von jeder der Eingangsbildsequenzen in eine erste temporäre Antwort und eine weitere temporäre Bandpaßantwort aufweist und der Diskriminierungsschritt die Diskriminierung der ersten temporären Tiefpaßantwort, der zweiten temporären Tiefpaßantwort, der temporären Bandpaßantwort und der weiteren temporären Bandpaßantwort aufweist, um die Bildmetrik zu erzeugen.
DE69726567T 1996-03-29 1997-03-31 Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen Expired - Lifetime DE69726567T2 (de)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US1433396P 1996-03-29 1996-03-29
US1433296P 1996-03-29 1996-03-29
US14332P 1996-03-29
US14333P 1996-03-29
US1468896P 1996-04-02 1996-04-02
US14688P 1996-04-02
US08/829,516 US5974159A (en) 1996-03-29 1997-03-28 Method and apparatus for assessing the visibility of differences between two image sequences
US829516 1997-03-28
PCT/US1997/004664 WO1997037325A1 (en) 1996-03-29 1997-03-31 Method and apparatus for assessing the visibility of differences between two image sequences

Publications (2)

Publication Number Publication Date
DE69726567D1 DE69726567D1 (de) 2004-01-15
DE69726567T2 true DE69726567T2 (de) 2004-09-30

Family

ID=27486377

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69726567T Expired - Lifetime DE69726567T2 (de) 1996-03-29 1997-03-31 Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen

Country Status (6)

Country Link
US (1) US5974159A (de)
EP (1) EP0898764B1 (de)
JP (1) JP4047385B2 (de)
KR (1) KR100378637B1 (de)
DE (1) DE69726567T2 (de)
WO (1) WO1997037325A1 (de)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957350B1 (en) 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
US6137904A (en) * 1997-04-04 2000-10-24 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two signal sequences
US6360022B1 (en) 1997-04-04 2002-03-19 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two signal sequences
US6236742B1 (en) * 1997-07-09 2001-05-22 Peter H. Handel Coherent superscan early cancer detection
US6141459A (en) * 1997-09-24 2000-10-31 Sarnoff Corporation Method and apparatus for processing image pyramid borders
US6421462B1 (en) * 1998-02-06 2002-07-16 Compaq Computer Corporation Technique for differencing an image
US6285794B1 (en) * 1998-04-17 2001-09-04 Adobe Systems Incorporated Compression and editing of movies by multi-image morphing
US6295392B1 (en) * 1998-05-20 2001-09-25 Itt Manufacturing Enterprises, Inc. Super resolution methods for electro-optical systems
US6269175B1 (en) * 1998-08-28 2001-07-31 Sarnoff Corporation Method and apparatus for enhancing regions of aligned images using flow estimation
US6269176B1 (en) * 1998-12-21 2001-07-31 Eastman Kodak Company Method for x-ray antiscatter grid detection and suppression in digital radiography
JP4519323B2 (ja) * 1999-02-11 2010-08-04 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー ビデオ信号品質の解析
US6285797B1 (en) 1999-04-13 2001-09-04 Sarnoff Corporation Method and apparatus for estimating digital video quality without using a reference video
DE19946429A1 (de) * 1999-09-28 2001-04-05 Stefan Vilsmeier Kontinuierliche Erfassung und Analyse von Gewebeveränderungen
US6674915B1 (en) * 1999-10-07 2004-01-06 Sony Corporation Descriptors adjustment when using steerable pyramid to extract features for content based search
US6678424B1 (en) * 1999-11-11 2004-01-13 Tektronix, Inc. Real time human vision system behavioral modeling
US6690839B1 (en) * 2000-01-17 2004-02-10 Tektronix, Inc. Efficient predictor of subjective video quality rating measures
IL134182A (en) * 2000-01-23 2006-08-01 Vls Com Ltd Method and apparatus for visual lossless pre-processing
US6753929B1 (en) 2000-06-28 2004-06-22 Vls Com Ltd. Method and system for real time motion picture segmentation and superposition
JP2002224982A (ja) * 2000-12-01 2002-08-13 Yaskawa Electric Corp 薄型基板搬送用ロボットおよび薄型基板検出方法
ATE552572T1 (de) * 2000-12-01 2012-04-15 Imax Corp Verfahren und vorrichtung zum erzeugen hochauflösender bilder
US6556009B2 (en) * 2000-12-11 2003-04-29 The United States Of America As Represented By The Department Of Health And Human Services Accelerated magnetic resonance imaging using a parallel spatial filter
US6670963B2 (en) * 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US7266150B2 (en) 2001-07-11 2007-09-04 Dolby Laboratories, Inc. Interpolation of video compression frames
US6633162B2 (en) * 2001-08-22 2003-10-14 Ge Medical Systems Global Technology Company, Llc System and method for filtering frequency encoded imaging signals
US6941017B2 (en) * 2001-09-18 2005-09-06 Tektronix, Inc. Temporal processing for realtime human vision system behavior modeling
CN1650622B (zh) * 2002-03-13 2012-09-05 图象公司 用于数字重新灌录或修改电影或其他图像序列数据的***和方法
FR2848363B1 (fr) * 2002-12-10 2005-03-11 Geoservices Dispositif de transmission de donnees pour une installation d'exploitation de fluides contenus dans un sous-sol.
US20050110883A1 (en) * 2003-11-24 2005-05-26 Allen Brent H. Image property translator
KR100519776B1 (ko) * 2003-11-24 2005-10-07 삼성전자주식회사 영상 신호의 해상도 변환 방법 및 장치
US8027531B2 (en) * 2004-07-21 2011-09-27 The Board Of Trustees Of The Leland Stanford Junior University Apparatus and method for capturing a scene using staggered triggering of dense camera arrays
US7903902B2 (en) 2004-07-26 2011-03-08 Sheraizin Semion M Adaptive image improvement
US7639892B2 (en) * 2004-07-26 2009-12-29 Sheraizin Semion M Adaptive image improvement
US7982774B2 (en) * 2004-09-13 2011-07-19 Sony Corporation Image processing apparatus and image processing method
US7783130B2 (en) * 2005-01-24 2010-08-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Spatial standard observer
US7526142B2 (en) * 2005-02-22 2009-04-28 Sheraizin Vitaly S Enhancement of decompressed video
US20070003118A1 (en) * 2005-06-30 2007-01-04 Wheeler Frederick W Method and system for projective comparative image analysis and diagnosis
CA2636858C (en) 2006-01-27 2015-11-24 Imax Corporation Methods and systems for digitally re-mastering of 2d and 3d motion pictures for exhibition with enhanced visual quality
EP2160037A3 (de) 2006-06-23 2010-11-17 Imax Corporation Verfahren und Systeme zur Umwandlung von 2D-Filmen für stereoskopische 3D-Vorführung
US8711144B2 (en) * 2006-08-01 2014-04-29 Siemens Medical Solutions Usa, Inc. Perception-based artifact quantification for volume rendering
KR100925419B1 (ko) * 2006-12-19 2009-11-06 삼성전자주식회사 라플라시안 피라미드를 이용한 컬러 영상의 화질 개선 장치및 그 방법
EP1956554B1 (de) * 2007-02-09 2009-10-07 Agfa-Gevaert Visuelle Hervorhebung von Intervalländerungen mittels einer Zeitsubtraktionstechnik
US8126858B1 (en) 2008-01-23 2012-02-28 A9.Com, Inc. System and method for delivering content to a communication device in a content delivery system
US8538140B2 (en) * 2008-06-23 2013-09-17 Nikon Corporation Device and method for detecting whether an image is blurred
WO2010036118A1 (en) * 2008-09-29 2010-04-01 Amsterdam Molecular Therapeutics (Amt) B.V. Porphobilinogen deaminase gene therapy
US8406507B2 (en) * 2009-01-14 2013-03-26 A9.Com, Inc. Method and system for representing image patches
US8422795B2 (en) 2009-02-12 2013-04-16 Dolby Laboratories Licensing Corporation Quality evaluation of sequences of images
US8738647B2 (en) * 2009-02-18 2014-05-27 A9.Com, Inc. Method and system for image matching
JP5363656B2 (ja) * 2009-10-10 2013-12-11 トムソン ライセンシング ビデオ画像のブラーを計算する方法及び装置
KR101092650B1 (ko) * 2010-01-12 2011-12-13 서강대학교산학협력단 양자화 코드를 이용한 화질 평가 방법 및 장치
CN102858402B (zh) 2010-02-26 2016-03-30 康奈尔大学 视网膜假体
WO2011139288A1 (en) 2010-05-06 2011-11-10 Nikon Corporation Image sharpness classification system
US8611620B2 (en) * 2010-07-01 2013-12-17 Ardia Medical Products Ltd. Advanced digital pathology and provisions for remote diagnostics
KR20120014804A (ko) 2010-08-10 2012-02-20 삼성전자주식회사 밝기 신호와 색차 신호 간의 크로스토크를 감소시키는 비디오 신호 생성 장치 및 방법
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
US8463036B1 (en) 2010-09-30 2013-06-11 A9.Com, Inc. Shape-based search of a collection of content
US8990199B1 (en) 2010-09-30 2015-03-24 Amazon Technologies, Inc. Content search with category-aware visual similarity
US8422782B1 (en) 2010-09-30 2013-04-16 A9.Com, Inc. Contour detection and image classification
US9251439B2 (en) 2011-08-18 2016-02-02 Nikon Corporation Image sharpness classification system
JP6117206B2 (ja) 2011-08-25 2017-04-19 コーネル ユニヴァーシティー 機械視覚のための網膜符号化器
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9043349B1 (en) 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US20140254897A1 (en) * 2013-03-06 2014-09-11 Tektronix, Inc. Design verification and diagnostics for image devices
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
GB201410635D0 (en) * 2014-06-13 2014-07-30 Univ Bangor Improvements in and relating to the display of images
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
CN112842690B (zh) 2015-04-20 2023-10-17 康奈尔大学 具有维度数据缩减的机器视觉
US10810455B2 (en) 2018-03-05 2020-10-20 Nvidia Corp. Spatio-temporal image metric for rendered animations
US11393115B2 (en) * 2018-11-27 2022-07-19 Infineon Technologies Ag Filtering continuous-wave time-of-flight measurements, based on coded modulation images

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4792854A (en) * 1982-09-14 1988-12-20 New York Institute Of Technology Apparatus for temporally processing a video signal
JP2581136B2 (ja) * 1988-03-10 1997-02-12 富士通株式会社 画質評価装置
CA2014935C (en) * 1989-05-04 1996-02-06 James D. Johnston Perceptually-adapted image coding system
US5204944A (en) * 1989-07-28 1993-04-20 The Trustees Of Columbia University In The City Of New York Separable image warping methods and systems using spatial lookup tables
JPH0415882A (ja) * 1990-05-09 1992-01-21 Matsushita Electric Ind Co Ltd 画質評価装置
JP2898798B2 (ja) * 1991-07-17 1999-06-02 日本放送協会 勾配法による動きベクトル検出装置
US5394483A (en) * 1992-06-30 1995-02-28 Eastman Kodak Co Method and apparatus for determining visually perceptible differences between images
JPH06133176A (ja) * 1992-10-14 1994-05-13 Daikin Ind Ltd 差画像作成方法、客観的画質評価方法、画像圧縮方法およびそれらの装置
US5446492A (en) * 1993-01-19 1995-08-29 Wolf; Stephen Perception-based video quality measurement system
US5694491A (en) * 1996-03-29 1997-12-02 David Sarnoff Research Center, Inc. Methods and apparatus for assessing the visibility of differences between two image sequences

Also Published As

Publication number Publication date
WO1997037325A1 (en) 1997-10-09
EP0898764A1 (de) 1999-03-03
KR19990087653A (ko) 1999-12-27
DE69726567D1 (de) 2004-01-15
EP0898764A4 (de) 2000-04-26
EP0898764B1 (de) 2003-12-03
JP2002503360A (ja) 2002-01-29
US5974159A (en) 1999-10-26
JP4047385B2 (ja) 2008-02-13
KR100378637B1 (ko) 2003-06-18

Similar Documents

Publication Publication Date Title
DE69726567T2 (de) Verfahren und vorrichtung zur bewertung der sichtbarkeit von unterschieden zwischen zwei bildsequenzen
DE60225296T2 (de) Allzweckbildverbesserungsalgorithmus, der details in digitalbildern visuell besser erkennbar macht
DE60020795T2 (de) Echtzeitmodellierung des Verhaltens menschlicher Sehvermögenssysteme
DE60017600T2 (de) Digitales bilderzeugungsverfahren
DE60030456T2 (de) Verfahren und system zur verbesserung von digitalbildern
DE60012464T2 (de) Verfahren zur Verbesserung eines digitalbildes mit rauschabhängiger Steuerung der Textur
Zheng et al. A new metric based on extended spatial frequency and its application to DWT based fusion algorithms
DE69828909T2 (de) Neue perzeptive lokale gradientenbasierte gratbestimmung
DE69629445T2 (de) Automatische Tonskalenabstimmung mittels Bildaktivitätsmessungen
DE69812800T2 (de) Verfahren und Gerät zur Bildverbesserung
DE602004006306T2 (de) Vorrichtung und Verfahren zur Erzeugung einer Kartografie herausstechender Merkmale in einem Bild
DE2952422C3 (de) Verfahren und Vorrichtung zum Verarbeiten eines Röntgenbildes bei einem Röntgenbild-Kopiersystem
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
DE112016001040T5 (de) Verfahren und System zur Echtzeit-Rauschbeseitung und -Bildverbesserung von Bildern mit hohem Dynamikumfang
DE69910358T2 (de) Verfahren und vorrichtung zur objektiven bewertung der videoqualität
DE60300462T2 (de) Verfahren zur schärfung eines digitalbildes mit signal-rausch-bewertung
DE112019002467T5 (de) System und verfahren für die fernmessungen von vitalzeichen
DE102010001331A1 (de) Iris-Deblurring-Verfahren basierend auf globalen und lokalen Irisbildstatistiken
DE60302924T2 (de) Anpassungsfähige nichtlineare Bildvergrösserung mittels Wavelet-Transformkoeffizienten
DE102010001520A1 (de) Durch einen Flugzeugsensor unterstütztes Iriserfassungssystem und -Verfahren
DE102005047539A1 (de) Bildverarbeitungsverfahren zur Fensterung und/oder Dosisregelung für medizinische Diagnostikeinrichtungen
DE60029728T2 (de) Detektion von Gauss-Geräusch in Videosignalen
DE102004057031A1 (de) Auflösungsadaptives Bildfiltersystem und -verfahren
Triantaphillidou et al. Contrast sensitivity in images of natural scenes
DE102004056589A1 (de) Verfahren und Vorrichtung zur Durchführung segmentierungsbasierter Bildoperationen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition