DE102018113822A1 - Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten - Google Patents

Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten Download PDF

Info

Publication number
DE102018113822A1
DE102018113822A1 DE102018113822.9A DE102018113822A DE102018113822A1 DE 102018113822 A1 DE102018113822 A1 DE 102018113822A1 DE 102018113822 A DE102018113822 A DE 102018113822A DE 102018113822 A1 DE102018113822 A1 DE 102018113822A1
Authority
DE
Germany
Prior art keywords
image
image data
stream
format
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102018113822.9A
Other languages
English (en)
Inventor
Peer Stelldinger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seefront GmbH
Original Assignee
Seefront GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seefront GmbH filed Critical Seefront GmbH
Priority to DE102018113822.9A priority Critical patent/DE102018113822A1/de
Publication of DE102018113822A1 publication Critical patent/DE102018113822A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/007Aspects relating to detection of stereoscopic image format, e.g. for adaptation to the display format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Verfahren zum Konvertieren eines Quell-Bildstroms (10), der Bilddaten in einem stereoskopischen Format enthält, in einen Ziel-Bildstrom (20), der Bilder (22) in einem vorgegebenen stereoskopischen Format aufweist, wobei die Bilder (22) jeweils ein links-Teilbild (26) für ein linkes Auge und ein rechts-Teilbild (28) für ein rechtes Auge umfassen, wobei das Verfahren die Schritte umfasst: Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms (10) basierend auf Bildinhalten der Bilddaten; Entnehmen von links-Teilbildern (16) für ein linkes Auge und rechts-Teilbildern (18) für ein rechtes Auge aus Bilddaten des Quell-Bildstroms (10), wobei diese Bilddaten des Quell-Bildstroms (10) gemäß dem erkannten stereoskopischen Format interpretiert werden; Erzeugen von Bildern (22) des Ziel-Bildstroms (20) im vorgegebenen stereoskopischen Format unter Einbeziehung der entnommenen links-Teilbilder (16) und rechts-Teilbilder (18); sowie Vorrichtung zur Durchführung des Verfahrens.

Description

  • Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zum Konvertieren eines Quell-Bildstroms in einen Ziel-Bildstrom.
  • Der eingehende Bildstrom eines 3D-Fernsehers enthält bei einem Bildstrom in einem stereoskopischen Format in der Regel separate Teilbilder für das linke Auge und für das rechte Auge eines Betrachters. Der 3D-Fernseher erzeugt daraus eine stereoskopische 3D-Wiedergabe, z.B. mittels abwechselnder Anzeige der Teilbilder für das linke Auge und für das rechte Auge und entsprechender Taktung einer Shutterbrille. Beispielsweise sind im HDMI (High Definition Multimedia Interface) Schnittstellenstandard in der HDMI Version 1.4a unter anderem drei Übertragungsformate definiert, die ein dem Standard entsprechender Fernseher entgegennehmen können muss: ein Frame Packing 3D-Videoformat, das einen Rahmenbereich definiert, der ein Teilbild für ein linkes Auge und ein Teilbild für ein rechtes Auge übereinander sowie aktiven Leerraum („active space“) zur Trennung der Teilbilder enthält; ein Side-by-Side (Half) 3D-Videoformat, das einen Rahmenbereich entsprechend einem Standard 2D Rahmen definiert, der horizontal um den Faktor 2 gestauchte Teilbilder für ein linkes Auge und ein rechtes Auge nebeneinander enthält; und ein Top-and-Bottom (Half) 3D-Videoformat, das einen Rahmenbereich entsprechend einem Standard 2D Rahmen definiert, der vertikal um den Faktor 2 gestauchte Teilbilder für ein linkes Auge und ein rechtes Auge übereinander enthält. Information, welches Übertragungsformat verwendet wird, kann über Metadaten in Form von 3D-InfoFrame-Datenpaketen übermittelt werden.
  • Wird ein Bildstrom von einer Bildstromquelle nicht in einem für das 3D-Ausgabegerät geeigneten Format ausgegeben, oder sind beispielsweise bei der Bildausgabe eines Computers stereoskopische 3D-Bilder lediglich in einem Fenster einer Benutzeroberfläche in einem 2D-Bildstrom enthalten, so wird eine 3D-Wiedergabe erschwert oder verhindert.
  • Aufgabe der Erfindung ist es, eine Nutzung eines 3D-Ausgabegeräts, wie beispielsweise eines 3D-Fernsehers oder einer Datenbrille, zur stereoskopischen Wiedergabe von stereoskopischen Bilddaten mit unterschiedlichen stereoskopischen Formaten zu ermöglichen oder zu vereinfachen.
  • Diese Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zum Konvertieren eines Quell-Bildstroms, der Bilddaten in einem stereoskopischen Format enthält, in einen Ziel-Bildstrom, der Bilder in einem vorgegebenen stereoskopischen Format aufweist, wobei die Bilder jeweils ein links-Teilbild für ein linkes Auge und ein rechts-Teilbild für ein rechtes Auge umfassen, wobei das Verfahren die Schritte umfasst:
    • Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms, basierend auf Bildinhalten der Bilddaten,
    • Entnehmen von links-Teilbildern für ein linkes Auge und rechts-Teilbildern für ein rechtes Auge aus Bilddaten des Quell-Bildstroms, wobei diese Bilddaten des Quell-Bildstroms gemäß dem erkannten stereoskopischen Format interpretiert werden,
    • Erzeugen von Bildern des Ziel-Bildstroms im vorgegebenen stereoskopischen Format unter Einbeziehung der entnommenen links-Teilbilder und rechts-Teilbilder.
  • D.h. die Bilddaten des Quell-Bildstroms werden interpretiert als die links-Teilbilder und die rechts-Teilbilder repräsentierend.
  • Somit kann eine Konvertierung eines digitalen Quell-Bildstroms in einen digitalen Ziel-Bildstrom mit einem vorgegebenen stereoskopischen Format der Bilder des Ziel-Bildstroms erfolgen. Der jeweilige Bildstrom umfasst eine Sequenz von Bildern oder Rahmen. Der Ziel-Bildstrom kann separate Datenströme für links-Teilbilder und rechts-Teilbilder umfassen. Der Quell-Bildstrom kann Bild für Bild oder Rahmen für Rahmen entgegengenommen werden. Das Erzeugen von Bildern des Ziel-Bildstroms kann erfolgen, während fortlaufend weitere Bilddaten des Quell-Bildstroms entgegengenommen werden. Vorzugsweise ist die Latenz zwischen dem Entgegennehmen eines Bildes oder eines Rahmens des Quell-Bildstroms und einem Ausgeben eines daraus erzeugten Bildes des Ziel-Bildstroms kleiner als 100 ms, weiter vorzugsweise kleiner als 51 ms, kleiner als 34 ms, oder besonders bevorzugt kleiner als 17 ms.
  • Das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms erfolgt anhand von Bildinhalten der Bilddaten, d.h. basierend auf Bildinhalten der Bilddaten. D.h., es kann zumindest auch basierend auf Bildinhalten der Bilddaten erfolgen.
  • Dabei werden die Bildinhalte durch die Bilddaten repräsentiert. Unter Bildinhalten werden hier für jeweilige Pixel definierte Inhalte verstanden, die durch die Bilddaten repräsentiert werden. D.h., das Erkennen erfolgt anhand von Bildinhalten in Form von für jeweilige Pixel definierten Inhalten, die durch die Bilddaten repräsentiert werden.
  • Beispielsweise kann das Verfahren umfassen:
    • Erkennen eines stereoskopischen Formats von ersten Bilddaten des Quell-Bildstroms, basierend auf Bildinhalten der ersten Bilddaten, und
    • Entnehmen von links-Teilbildern für ein linkes Auge und rechts-Teilbildern für ein rechtes Auge aus weiteren Bilddaten des Quell-Bildstroms, wobei die weiteren Bilddaten des Quell-Bildstroms gemäß dem erkannten stereoskopischen Format der ersten Bilddaten interpretiert werden.
  • Der Schritt des Erkennens kann auch für neue erste Bilddaten wiederholt werden, um auf einen Wechsel einer Zusammensetzung und/oder des stereoskopischen Formats der Bilddaten des Quell-Bildstroms zu reagieren.
  • Vorzugsweise ist wenigstens einer von dem Quell-Bildstrom und dem Ziel-Bildstrom ein digitaler Bildstrom mit aufeinanderfolgenden Rahmen, die Bilder enthalten, beispielsweise ein digitaler Bildstrom gemäß dem HDMI 1.4, HDMI 2.0 oder HDMI 2.1 Standard.
  • Der Quell-Bildstrom ist ein Rastergrafik-Bildstrom. Die Bilddaten des Quell-Bildstroms sind insbesondere Rastergrafik-Bilddaten (oder Bitmap-Bilddaten), d.h. sie können bezeichnet werden als pixelbasierte Bilddaten. Bei dem Ziel-Bildstrom kann es sich ebenfalls um einen Rastergrafik-Bildstrom handeln.
  • Unter einem Rahmen (engl.: frame) wird eine Struktur eines Bildsignals verstanden, in welcher in definierter zeitlicher Abfolge Bilddaten zeilenweise enthalten sind. Der Rahmen enthält üblicherweise horizontale Austastlücken und eine vertikale Austastlücke. Ein Rahmenbereich, der zeilenweise aufeinanderfolgend die Bilddaten enthält, entspricht einem x-y-Positionsbereich des Rahmens, wobei y die Zeile angibt und x die Position innerhalb einer Zeile. Bei HDMI-Bildströmen können nicht nur die Bilddaten übertragen werden, sondern es können zusätzliche Informationen in Datenpaketen in den Austastlücken übertragen werden, etwa Audiodaten. In einem HDMI-Bildstrom werden Bilddaten in z.B. drei Kanälen gleichzeitig jeweils in Form eines Bitstroms übertragen.
  • Das stereoskopische Format von Bilddaten des Quell-Bildstroms kann beispielsweise einer Anordnung von links-Teilbildern und rechts-Teilbildern in den stereoskopischen Bilddaten des Quell-Bildstroms entsprechen oder eine solche Anordnung umfassen. Das vorgegebene stereoskopische Format der Bilder des Ziel-Bildstroms kann beispielsweise einer Anordnung von links-Teilbildern und rechts-Teilbildern in den stereoskopischen Bildern des Ziel-Bildstroms entsprechen oder eine solche Anordnung umfassen.
  • Das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten kann beispielsweise das Erkennen einer Anordnung von links-Teilbildern und rechts-Teilbildern in stereoskopischen Bilddaten des Quell-Bildstroms umfassen oder darin bestehen.
  • Das vorgegebene stereoskopische Format der Bilder des Ziel-Bildstroms kann sich von dem stereoskopischen Format der Bilddaten des Quell-Bildstroms unterscheiden.
  • Beispielsweise kann sich eine Anordnung der links-Teilbilder und rechts-Teilbilder in Bildern des Ziel-Bildstroms unterscheiden von einer Anordnung von links-Teilbildern und rechts-Teilbildern in den stereoskopischen Bilddaten des Quell-Bildstroms, wobei die jeweilige Anordnung umfassen kann: eine Anordnung von links-Teilbild und rechts-Teilbild nebeneinander, eine Anordnung von links-Teilbild und rechts-Teilbild übereinander, eine zeilenweise verschachtelte Anordnung von links-Teilbild und rechts-Teilbild. Die Anordnung von links-Teilbildern und rechts-Teilbildern in den stereoskopischen Bilddaten des Quell-Bildstroms kann auch umfassen: eine Anordnung von links-Teilbild und rechts-Teilbild als Überlagerung, d.h. an gleicher Position in einem Bild, in unterschiedlichen Farben von links-Teilbild und rechts-Teilbild (farb-anaglyphisches Stereobild), eine Anordnung von links-Teilbildern und rechts-Teilbildern an gleicher Position abwechselnd in aufeinanderfolgenden Bildern des Quell-Bildstroms (das frame-interlacing oder frame-interlaced Format, auch bezeichnet als temporal interlacing), und eine Anordnung von links-Teilbild und rechts-Teilbild an gleicher Position in aufeinanderfolgenden Bildern des Quell-Bildstroms, wobei ein Teilbild zu unterschiedlichen Wiedergabezeitpunkten als links-Teilbild und als rechts-Teilbild dient (zur Ausnutzung des Pulfrich-Effektes).
  • Der Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten kann beispielsweise dann durchgeführt werden, wenn Information über ein stereoskopisches Bildformat von Bildern des Quell-Bildstroms nicht aus Metadaten des Quell-Bildstroms ausgelesen werden konnte, wie beispielsweise aus 3D-InfoFrame-Datenpaketen eines 3D-Bildstroms gemäß einem HDMI-Standard.
  • Beispielsweise kann das Verfahren umfassen:
    • Überprüfen des Vorliegens von Information über ein stereoskopisches Bildformat von Bildern des Quell-Bildstroms in Metadaten des Quell-Bildstroms,
    • Auslesen der Information über ein stereoskopisches Bildformat von Bildern des Quell-Bildstroms aus Metadaten des Quell-Bildstroms, wenn die Information vorliegt,
    • wobei der Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten ausgeführt wird, wenn die Information nicht vorliegt, d.h. wenn Information über ein stereoskopisches Bildformat von Bildern des Quell-Bildstroms nicht aus Metadaten des Quell-Bildstroms ausgelesen werden konnte.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren:
    • Vergleichen einer Bildgröße eines Bildes des Quell-Bildstroms mit unterschiedlichen stereoskopischen Formaten zugeordneten Bildgrößen, wobei beim Vergleichen jeweils überprüft wird, ob eine Vergleichsbedingung für ein einer jeweiligen Bildgröße zugeordnetes stereoskopisches Format erfüllt ist,
    • wobei der Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten ausgeführt wird, wenn in dem Schritt des Vergleichens einer Bildgröße eines Bildes des Quell-Bildstroms mit unterschiedlichen stereoskopischen Formaten zugeordneten Bildgrößen keine der jeweiligen Vergleichsbedingungen erfüllt ist. D.h., der Schritt des Erkennens, basierend auf den Bildinhalten, wird durchgeführt, wenn in dem Schritt des Vergleichens der Bildgröße kein stereoskopisches Format von Bildern des Quell-Bildstroms erkannt wurde.
  • Beispielsweise können wenigstens folgende Zuordnungen zwischen stereoskopischen Formaten und jeweiligen Bildgrößen mit betreffenden Vergleichsbedingungen vorgenommen werden:
    • Bildgröße ist exakt gleich 1920 x 2205 - Frame-Packing 1080p, d.h. links-Teilbild 1920 x 1080 über aktivem Leerraum 1920 x 45 über rechts-Teilbild 1920 x 1080 in einem Bild, entsprechend einem Seitenverhältnis des Bildes von 128/149, gleich etwa 0,87:1;
    • Bildgröße ist exakt gleich 1280 x 1470 - Frame-Packing 720p, d.h. links-Teilbild 1280 x 720 über aktivem Leerraum 1280 x 30 über rechts-Teilbild 1280 x 720 in einem Bild, entsprechend einem Seitenverhältnis des Bildes von 128/149, gleich etwa 0,87: 1;
    • Bildgröße hat ein Seitenverhältnis größer gleich 2:1, beispielsweise 3840 x 1080, - Side-by-Side-(full), d.h. links-Teilbild und rechts-Teilbild (z.B. beide 1920 x 1080) direkt nebeneinander in einem Bild (ohne horizontale Stauchung);
    • Bildgröße hat ein Seitenverhältnis kleiner als 1:1 (außer obige Frame-Packing-Formate), beispielsweise 1920 x 2160 - Top-and-Bottom-(full), d.h. links-Teilbild direkt über rechts-Teilbild in einem Bild (ohne vertikale Stauchung).
  • Dabei können optional, etwa wenn, wie weiter unten erläutert, eine Erkennung für einen Teilbereich eines Bildes entsprechend einem angenommenen 3D-Bilddatenbereich erfolgen soll, die beiden erstgenannten Fälle Frame-Packing 1080p und Frame-Packing 720p umfasst sein durch die Zuordnung: Bildgröße hat ein Seitenverhältnis von 128/149 oder etwa gleich 0,87:1 - Frame-Packing, d.h. links-Teilbild über aktivem Leerraum über rechts-Teilbild in einem Bild, mit entsprechenden Höhenanteilen von links-Teilbild, aktivem Leerraum und rechts-Teilbild.
  • Für alle anderen Fälle, d.h. bei einer Bildgröße mit einem Seitenverhältnis im Bereich von einschließlich 1:1 bis kleiner als 2:1 (exclusive), erfolgt der Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten. Vorzugsweise wird dabei das zu erkennende Format von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten erkannt als eines von einem oder mehreren Formaten der nachfolgend genannten Formate (1) bis (2) und (6) bis (9).
  • In einer oder mehreren Ausführungsformen wird das zu erkennende stereoskopische Format von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten erkannt als eines von mehreren stereoskopischen Formaten, wobei die mehreren stereoskopischen Formate stereoskopische Formate umfassen, welche eine jeweilige unterschiedliche Anordnung von links-Teilbildern und rechts-Teilbildern in den stereoskopischen Bilddaten des Quell-Bildstroms aufweisen.
  • In einer oder mehreren Ausführungsformen wird das zu erkennende Format von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten erkannt als eines von einem oder mehreren Formaten, welche umfassen:
    1. (1) ein Side-by-Side-(half)-Format mit einem links-Teilbild und einem rechts-Teilbild nebeneinander, die jeweils ein Seitenverhältnis aufweisen, das jeweils einem in x-Richtung mit dem Faktor 0,5 gestauchten Vollbild entspricht, wobei das Seitenverhältnis des Vollbildes vorzugsweise eines von 4:3 und 16:9 ist;
    2. (2) ein Top-and-Bottom-(half)-Format mit einem links-Teilbild und einem rechts-Teilbild in y-Richtung übereinander angeordnet, die jeweils ein Seitenverhältnis aufweisen, das jeweils einem in y-Richtung mit dem Faktor 0,5 gestauchten Vollbild entspricht, wobei das Seitenverhältnis des Vollbildes vorzugsweise eines von 4:3 und 16:9 ist,
    3. (3) ein Side-by-Side-(full)-Format mit einem links-Teilbild und einem rechts-Teilbild direkt nebeneinander, wobei das Seitenverhältnis des gesamten Bildes aus links-Teilbild und rechts-Teilbild vorzugsweise zusammen 32:9, also etwa 3,56:1 ist;
    4. (4) ein Top-and-Bottom-(full)-Format mit einem links-Teilbild und einem rechts-Teilbild direkt übereinander,
    5. (5) ein Frame-Packing-Format mit einem links-Teilbild und einem rechts-Teilbild in y-Richtung übereinander und getrennt durch aktiven Leerraum angeordnet, wobei das Seitenverhältnis des gesamten Bildes aus links-Teilbild, Leerraum und rechts-Teilbild vorzugsweise 128:149 oder etwa gleich 0,87:1 ist;
    6. (6) ein Line-Alternative-Format mit einem links-Teilbild und einem rechts-Teilbild zeilenweise verschachtelt, d.h. gerade Zeilen und ungerade Zeilen sind unterschiedlichen Teilbildern zugeordnet;
    7. (7) ein Frame-Interlaced-Format, bei dem ein Rahmen mit einem links-Teilbild und ein Rahmen mit einem rechts-Teilbild abwechselnd aufeinander folgen;
    8. (8) ein farb-anaglyphisches Format gemäß einer oder mehreren Kombinationen von links-kodierenden und rechts-kodierenden Farben, insbesondere eines oder mehrere von einem rot-blau-anaglyphischem Format, einem rot-grün-anaglyphischem Format, einem rot-cyan-anaglyphischem Format, einem gelb-blau-anaglyphischem Format;
    9. (9) ein zur Ausnutzung des Pulfrich-Effektes eingerichtetes Format.
    Beispielsweise kann eines der Formate (1) bis (9) als Format von Bilddaten des Quell-Bildstroms erkannt werden, welche Bilddaten einem Vollbild oder Rahmen des Quell-Bildstroms entsprechen.
  • Beispielsweise kann eines der Formate (1) bis (5) sowie (7) bis (9) als Format von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten erkannt werden, welche Bilddaten einem Teilbereich eines Bildes des Quell-Bildstroms entsprechen, insbesondere einem rechtwinklig polygonalem oder einem rechteckigem Teilbereich. Außerhalb dieses Teilbereichs können beispielsweise 2D-Bilddaten vorliegen. Somit können beispielsweise auch skaliert wiedergegebene Videobilder oder Bilder als Stereobilder erkannt werden.
  • Die Erkennung kann auch auf eines oder mehrere der genannten Formate beschränkt sein, oder weitere Formate umfassen.
  • Bei der Erkennung des Formats kann anhand des Seitenverhältnisses auf das Vorliegen einer Stauchung der Teilbilder in x-Richtung oder y-Richtung geschlossen werden, insbesondere bei einem Side-by-Side-(half)-Format bzw. einem Top-and-Bottom-(half)-Format. Dies wird beim Interpretieren der Bilddaten zur Entnahme der Teilbilder berücksichtigt.
  • Das beschriebene Vergleichen der Bildgröße kann beispielsweise durchgeführt werden, wenn die Information über ein stereoskopisches Bildformat von Bildern des Quell-Bildstroms in Metadaten des Quell-Bildstroms nicht vorliegt.
  • Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.
  • In einer oder mehreren Ausführungsformen umfasst das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten:
    • Überprüfen von mehreren Hypothesen über ein stereoskopisches Format von Bilddaten des Quell-Bildstroms,
    • Erkennen des stereoskopischen Formats einer Hypothese als das stereoskopische Format der Bilddaten, wenn in dem Schritt des Überprüfens die Hypothese als zutreffend erkannt wurde.
  • Vorzugsweise umfasst eine Hypothese über ein stereoskopisches Format von Bilddaten des Quell-Bildstroms eine Hypothese über eine Anordnung von links-Teilbildern und rechts-Teilbildern in Bilddaten des Quell-Bildstroms. Beispielsweise kann eine Hypothese über ein stereoskopisches Format von Bilddaten des Quell-Bildstroms einer Hypothese über eine Anordnung von links-Teilbildern und rechts-Teilbildern in Bilddaten des Quell-Bildstroms entsprechen.
  • Beispielsweise kann das Überprüfen von mehreren Hypothesen umfassen:
    • Detektieren, für eine jeweilige Hypothese von zu überprüfenden Hypothesen, von paarweise korrespondierenden Merkmalen in links-Bildinhalten und rechts-Bildinhalten der Bilddaten, wobei die Bilddaten gemäß der betreffenden Hypothese als die links-Bildinhalte und die rechts-Bildinhalte repräsentierend interpretiert werden;
    • Erkennen einer Hypothese als zutreffend basierend auf sich paarweise hauptsächlich in ihren x-Koordinaten unterscheidenden Positionen von detektierten, paarweise korrespondierenden Merkmalen.
  • D.h., in dem Schritt des Detektierens von paarweise korrespondierenden Merkmalen werden die Bilddaten gemäß der betreffenden Hypothese als Repräsentation der links-Bildinhalte und der rechts-Bildinhalte interpretiert. Es erfolgt eine Zuordnung der Bilddaten zu links-Bildinhalten und rechts-Bildinhalten entsprechend der betreffenden Hypothese.
  • Beispielsweise kann in dem Schritt des Erkennens einer Hypothese als zutreffend das Erkennen einer Hypothese als zutreffend erfolgen, wenn die Hypothese unter denjenigen Hypothesen, für die ein Ähnlichkeitskriterium für die y-Koordinaten der paarweise korrespondierenden Merkmale für die betreffende Hypothese erfüllt ist, einen größten Wert eines Maßes für die Streuung der paarweisen Differenzen der x-Koordinaten der paarweise korrespondierenden Merkmale aufweist.
  • Auf diese Weise erfolgt das Erkennen einer Hypothese als zutreffend anhand einer Vereinbarkeit von Koordinaten der paarweise korrespondierenden Merkmale mit typischen Merkmalen eines stereoskopischen Bildinhalts.
  • Je nach der betreffenden Hypothese können der links-Bildinhalt und der rechts-Bildinhalt in einem Bild oder Rahmen des Quell-Bildstroms enthalten sein oder in aufeinanderfolgenden Bildern oder Rahmen des Quell-Bildstroms enthalten sein.
  • In einer oder mehreren Ausführungsformen erfolgt das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten mittels eines künstlichen Neuronalen Netzes. Insbesondere kann das Erkennen durch das künstliche Neuronale Netz erfolgen. Beispielsweise kann das Erkennen einer Anordnung von links-Teilbildern und rechts-Teilbildern in stereoskopischen Bilddaten des Quell-Bildstroms mittels eines künstlichen Neuronalen Netzes erfolgen.
  • Beispielsweise kann das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten eine Vorverarbeitung von Bildinhalten der Bilddaten umfassen, bei der globale Bildmerkmale aus Bildinhalten der Bilddaten extrahiert werden und das künstliche Neuronale Netz die extrahierten globalen Bildmerkmale als Eingangssignale erhält. Somit werden bei der Vorverarbeitung von Bildinhalten der Bilddaten globale Bildmerkmale aus Bildinhalten in Form von für jeweilige Pixel definierten Inhalten, die durch die Bilddaten repräsentiert werden, extrahiert. Beispielsweise kann das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten das Erkennen einer Anordnung von links-Teilbildern und rechts-Teilbildern in stereoskopischen Bilddaten des Quell-Bildstroms umfassen, welches wiederum die Vorverarbeitung umfassen kann.
  • In einer oder mehreren Ausführungsformen können die Bilddaten des Quell-Bildstroms, deren stereoskopisches Format erkannt wird, zusammen einem rechteckigen Teil eines Bildes des Quell-Bildstroms oder einem rechteckigen Teil aufeinanderfolgender Bilder des Quell-Bildstroms entsprechen. Die Bilddaten des Quell-Bildstroms, deren stereoskopisches Format erkannt wird, können auch einem Vollbild oder Gesamt-Bildbereich des Quell-Bildstroms oder Vollbildern oder einem Gesamt-Bildbereich von aufeinanderfolgenden Bildern des Quell-Bildstroms entsprechen.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren: Erkennen eines Umfangs eines Bildbereichs von Bilddaten, die ein stereoskopisches Format aufweisen. Diese Bilddaten werden nachfolgend auch als 3D-Bilddaten bezeichnet, und der Bereich wird auch als 3D-Bilddatenbereich bezeichnet. Vorzugsweise wird der Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten dann durchgeführt für Bilddaten, die diesem Bildbereich entsprechen. Das Verfahren umfasst somit: Erkennen eines stereoskopischen Formats der Bilddaten, die diesem Bildbereich entsprechen. Das Verfahren kann insbesondere umfassen: Erkennen einer Anordnung von links-Teilbildern und rechts-Teilbildern in stereoskopischen Bilddaten des Quell-Bildstroms, die diesem Bildbereich entsprechen. Beispielsweise kann der Schritt des Erkennens eines Umfangs eines Bildbereichs von Bilddaten, die ein stereoskopisches Format aufweisen, durchgeführt werden, wenn in einem Schritt des Untersuchens von Bildinhalten von Bilddaten des Quell-Bildstroms zum Erkennen eines stereoskopischen Formats der Bilddaten basierend auf Bildinhalten der Bilddaten, wobei die Bilddaten einem Vollbild oder Gesamt-Bildbereich eines Bildes des Quell-Bildstroms entsprechen, kein stereoskopisches Format erkannt wird. Es kann dann ein weiterer Schritt des Untersuchens von Bildinhalten von Bilddaten des Quell-Bildstroms zum Erkennen eines stereoskopischen Formats der Bilddaten basierend auf Bildinhalten der Bilddaten erfolgen, wobei die Bilddaten dem erkannten Umfang des 3D-Bilddbereichs entsprechen. Dieser Schritt des Untersuchens von Bildinhalten von Bilddaten des Quell-Bildstroms umfasst dann beispielsweise den Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten. Er kann insbesondere den Schritt des Erkennens einer Anordnung von links-Teilbildern und rechts-Teilbildern in stereoskopischen Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten umfassen.
  • Insbesondere kann es sich bei dem 3D-Bilddatenbereich um einen rechtwinkligpolygonalen oder einen rechteckigen Bildbereich handeln. Dieser Bildbereich kann auch als 3D-Bildbereich bezeichnet werden. Unter dem Umfang des Bildbereichs wird die Erstreckung oder die Größe des Bildbereichs der betreffenden Bilddaten verstanden. Das Erkennen eines stereoskopischen Formats der Bilddaten, die diesem Bildbereich entsprechen, basierend auf Bildinhalten der Bilddaten, kann beispielsweise, wie beschrieben, das Überprüfen von mehreren Hypothesen über ein stereoskopisches Format dieser Bilddaten des Quell-Bildstroms umfassen. Das Erkennen eines stereoskopischen Formats der Bilddaten, die diesem Bildbereich entsprechen, basierend auf Bildinhalten der Bilddaten, kann beispielsweise, wie beschrieben, mittels eines künstlichen Neuronalen Netzes erfolgen. Auch bei einem Schritt des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms, der für Bilddaten durchgeführt wird, die einem Vollbild oder Gesamt-Bildbereich eines Bildes des Quell-Bildstroms entsprechen, kann das Erkennen eines stereoskopischen Formats basierend auf Bildinhalten der Bilddaten beispielsweise, wie beschrieben, das Überprüfen von mehreren Hypothesen über ein stereoskopisches Format dieser Bilddaten des Quell-Bildstroms umfassen, oder, wie beschrieben, mittels eines künstlichen Neuronalen Netzes erfolgen.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren: Erkennen eines Umfangs eines Bildbereichs von 2D-Bilddaten; wobei das Verfahren weiter umfasst: Entnehmen von 2D-Teilbildern aus 2D-Bilddaten des Quell-Bildstroms, wobei das Erzeugen von Bildern des Ziel-Bildstroms im vorgegebenen stereoskopischen Format unter Einbeziehung der entnommenen links-Teilbilder und rechts-Teilbilder und unter Einbeziehung der entnommenen 2D-Teilbilder erfolgt. Die entnommenen 2D-Teilbilder werden beispielsweise dupliziert.
  • Beispielsweise kann ein Bildbereich, welcher außerhalb eines Bildbereichs von Bilddaten liegt, die ein stereoskopisches Format aufweisen, als Bildbereich von 2D-Bilddaten erkannt werden.
  • Beispielsweise kann, wenn für Bilddaten des Quell-Bildstroms kein stereoskopisches Format erkannt wird, ein Entnehmen von 2D-Bildern aus diesen Bilddaten des Quell-Bildstroms erfolgen, und es erfolgt ein Erzeugen von Bildern des Ziel-Bildstroms im vorgegebenen stereoskopischen Format unter Einbeziehung der entnommenen 2D-Teilbilder, welche dupliziert werden. Dadurch kann bei nur zeitweisem Vorhandensein von Bilddaten mit stereoskopischem Format in den übrigen Zeiten dennoch der Ziel-Bildstrom mit Bilddaten im vorgegebenen stereoskopischen Format erzeugt werden.
  • Beispielsweise kann das Erkennen eines Umfangs eines Bildbereichs von Bilddaten des Quell-Bildstroms, die ein stereoskopisches Format aufweisen, basierend auf Bildinhalten der Bilddaten des Quell-Bildstroms erfolgen.
  • Beispielsweise kann das Erkennen eines Umfangs eines Bildbereichs von Bilddaten des Quell-Bildstroms, die ein stereoskopisches Format aufweisen, basierend auf Bildinhalten der Bilddaten des Quell-Bildstroms umfassen:
    • Detektieren von horizontalen und vertikalen Kanten in Bildinhalten der Bilddaten, die zusammen einen Rand eines Bildbereichs definieren, wobei die Bilddaten als 2D-Bilddaten interpretiert werden, und
    • Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms, die einem Bildbereich entsprechen, dessen Rand durch die detektierten Kanten definiert wird.
  • Beispielsweise können horizontale und vertikale Kanten detektiert werden, die zusammen einen Rand eines polygonalen, auch als rechtwinklig-polygonal bezeichneten, Bildbereichs oder insbesondere eines rechteckigen Bildbereichs definieren.
  • Beispielsweise kann der Quell-Bildstrom 2D-Bildinhalte in einem 2D-Format enthalten, in denen stereoskopische Bildinhalte eingebettet und in einem beispielsweise rechteckigen Bildbereich enthalten sind.
  • In einer oder mehreren Ausführungsformen können in dem Schritt des Entnehmens von links-Teilbildern für ein linkes Auge und rechts-Teilbildern für ein rechtes Auge aus Bilddaten des Quell-Bildstroms die entnommenen links-Teilbilder und rechts-Teilbilder unterschiedlichen Farbkanälen von Bilddaten entsprechen, wenn das erkannte stereoskopische Format der Bilddaten ein Farb-anaglyphisches stereoskopisches Format ist. Dadurch können Farb-anaglyphisch-kodierte stereoskopische Bildinhalte in das vorgegebene stereoskopische Format konvertiert werden.
  • In einer oder mehreren Ausführungsformen kann in dem Schritt des Entnehmens von links-Teilbildern für ein linkes Auge und rechts-Teilbildern für ein rechtes Auge aus Bilddaten des Quell-Bildstroms ein Entnehmen eines links-Teilbildes für ein linkes Auge und eines zugeordneten rechts-Teilbildes für ein rechtes Auge aus jeweiligen nacheinander folgenden Bildern des Quell-Bildstroms erfolgen, wobei bei dem Erzeugen von Bildern des Ziel-Bildstroms im vorgegebenen stereoskopischen Format ein verzögertes Einbeziehen der entnommenen Teilbilder für eines der beiden Augen erfolgt. Dadurch können Pulfrich-kodierte stereoskopische Bildinhalte in das vorgegebene stereoskopische Format konvertiert werden.
  • Die Aufgabe wird weiter gelöst durch eine Vorrichtung zum Konvertieren eines Quell-Bildstroms, der Bilddaten in einem stereoskopischen Format enthält, in einen Ziel-Bildstrom, der Bilder in einem vorgegebenen stereoskopischen Format aufweist, wobei die Bilder jeweils ein links-Teilbild für ein linkes Auge und ein rechts-Teilbild für ein rechtes Auge umfassen, umfassend: eine Erkennungseinrichtung zum Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten; und eine Konvertierungseinrichtung zum Konvertieren des Quell-Bildstroms in den Ziel-Bildstrom, wobei die Vorrichtung zur Durchführung des Verfahrens eingerichtet ist. Insbesondere kann die Erkennungseinrichtung zur Durchführung des Schrittes des Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten eingerichtet sein. Insbesondere kann die Konvertierungseinrichtung zum Durchführen der Schritte des Entnehmens von links-Teilbildern und rechts-Teilbildern sowie des Erzeugens von Bildern des Ziel-Bildstroms eingerichtet sein.
  • Die Vorrichtung kann beispielsweise in einer Bildstromquelle implementiert sein, etwa einem PC (Personal Computer), und kann beispielsweise in einem Bildschirmtreiber oder einem Grafikadapter (z.B. einer Grafikkarte) implementiert sein. Die Vorrichtung kann auch beispielsweise ein Konverter zur Verbindung einer Bildstromquelle mit einem 3D-Ausgabegerät sein. Die Vorrichtung kann auch, beispielsweise als Konverter, in einem 3D-Ausgabegerät integriert sein und den Ziel-Bildstrom in einem zur Ausgabe durch das 3D-Ausgabegerät geeignetem stereoskopischen Format ausgeben, etwa in Form eines Rahmen-sequentiellen (frame-sequential) Bildstroms mit abwechselnden Teilbildern für das linke und das rechte Auge, oder in Form von getrennten Datenströmen für links-Teilbilder und rechts-Teilbilder.
  • Bevorzugte Ausführungsformen der Erfindung werden im Folgenden anhand der Zeichnung näher erläutert. Es zeigen:
    • 1 eine schematische Darstellung einer Konvertierung eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem Ausführungsbeispiel;
    • 2 eine schematische Darstellung einer Konvertierung eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem weiteren Ausführungsbeispiel;
    • 3 eine schematische Darstellung einer Konvertierung eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem weiteren Ausführungsbeispiel;
    • 4 eine schematische Darstellung eines Konverters zum Konvertieren eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem Ausführungsbeispiel;
    • 5 eine schematische Darstellung einer Erkennung eines Umfangs eines Bildbereichs von 3D-Bilddaten;
    • 6 eine schematische Darstellung von horizontalen und vertikalen Kanten in Bildinhalten der Bilddaten eines Bildes des Quell-Bildstroms;
    • 7 eine schematische Darstellung eines Verfahrens zum Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms mittels eines künstlichen Neuronalen Netzes;
    • 8 eine schematische Darstellung eines Verfahrens zum Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms mittels Merkmalsdetektoren;
    • 9 eine schematische Darstellung einer Konvertierung eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem weiteren Ausführungsbeispiel;
    • 10 eine schematische Darstellung einer Konvertierung eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem weiteren Ausführungsbeispiel; und
    • 11 eine schematische Darstellung einer Konvertierung eines Quell-Bildstroms in einen Ziel-Bildstrom gemäß einem weiteren Ausführungsbeispiel.
  • 1 zeigt schematisch eine Konvertierung eines Quell-Bildstroms 10 in einen Ziel-Bildstrom 20 gemäß einem Ausführungsbeispiel. Der Quell-Bildstrom 10 umfasst eine Folge von Bildern 12, die jeweils durch entsprechende Bilddaten in Form von pixel-basierten Rastergrafiken (bitmap images) repräsentiert werden. Die Bilddaten eines jeweiligen Bildes 12 des Quell-Bildstroms 10 umfassen 2D-Bilddaten, welche ein 2D-Teilbild 14 repräsentieren, und 3D-Bilddaten, welche ein links-Teilbild 16 und ein rechts-Teilbild 18 gemäß einem stereoskopischen Format repräsentieren. In 1 ist das stereoskopische Format der 3D-Bilddaten des Quell-Bildstroms ein side-by-side Format mit in x-Richtung mit dem Faktor 0,5 gestauchtem Bildinhalt der Teilbilder 16, 18. Die 3D-Bilddaten liegen in einem 3D-Bilddatenbereich in Form eines rechteckigen Ausschnitts der Bilddaten des gesamten Bildes 12 vor. Der obere Teil von 1 zeigt die Bilder 12 im Seitenverhältnis (aspect ratio) der 2D-Bilddaten.
  • 1 zeigt die Konvertierung des Quell-Bildstroms in den Ziel-Bildstrom, nachdem das stereoskopische Format der 3D-Bilddaten erkannt wurde.
  • Die 3D-Bilddaten, welche den Teilbildern 16, 18 entsprechen, werden gemäß dem stereoskopischen Format der 3D-Bilddaten interpretiert, und es werden das links-Teilbild 16 und das rechts-Teilbild 18 aus den Bilddaten des Quell-Bildstroms 10 entnommen. Der mittlere Teil von 1 zeigt die links- und rechts-Teilbilder 16, 18 im richtigen Seitenverhältnis, d.h. ohne die Stauchung. Weiter wird das 2D-Teilbild 14 aus den Bilddaten des Quell-Bildstroms 10 entnommen.
  • Es wird eine Folge von Bildern 22 des Ziel-Bildstroms 12 im vorgegebenen stereoskopischen Format erzeugt. Das vorgegebene stereoskopische Format ist in 1 ein side-by-side-(full)-Format z.B. mit einer zweifachen vollen HD-Bildauflösung von 2x1920 Pixeln Breite und 1080 Pixeln Höhe, ohne Stauchung in x- oder y-Richtung. Der untere Teil von 1 zeigt die erzeugten Bilder 22 im richtigen Seitenverhältnis (das tatsächliche Seitenverhältnis ist in den Figuren nur schematisch wiedergegeben). Ein jeweiliges Bild 22 des Ziel-Bildstroms 12 wird erzeugt unter Einbeziehung des links-Teilbildes 16, des rechts-Teilbildes 18, und des duplizierten 2D-Teilbildes 14. Dabei umfasst ein erzeugtes links-Teilbild 26 des Ziel-Bildstroms 20 ein Exemplar des duplizierten 2D-Teilbildes 14 und das entnommene links-Teilbild 16 des Quell-Bildstroms im Zielformat, dem vorgegebenen stereoskopischen Format der Bilder 22 des Ziel-Bildstroms 20. Entsprechend umfasst ein erzeugtes rechts-Teilbild 28 des Ziel-Bildstroms 20 ein Exemplar des duplizierten 2D-Teilbildes 14 und das entnommene rechts-Teilbild 18 des Quell-Bildstroms im Zielformat.
  • 2 zeigt vereinfacht eine Konvertierung eines Bildes 12 eines Quell-Bildstroms in ein Bild 22 eines Ziel-Bildstroms 20 gemäß einem weiteren Ausführungsbeispiel. Die Darstellung ist gegenüber 1 vereinfacht. Insbesondere sind die Zwischenschritte, die in 1 im mittleren Teil der Figur dargestellt sind, zur Vereinfachung in 2 nicht gezeigt, und es ist jeweils nur ein Bild 12, 22 des Quell-Bildstroms 10 bzw. Ziel-Bildstroms 20 dargestellt. In 2 ist das stereoskopische Format der 3D-Bilddaten des Quell-Bildstroms ebenfalls ein side-by-side Format mit in x-Richtung mit dem Faktor 0,5 gestauchtem Bildinhalt der Teilbilder 16, 18. Die 3D-Bilddaten liegen in einem 3D-Bilddatenbereich in Form eines rechteckigen Ausschnitts der Bilddaten des gesamten Bildes 12 vor. Die Bilddaten eines jeweiligen Bildes 12 des Quell-Bildstroms 10 umfassen außerdem 2D-Bilddaten, welche ein 2D-Teilbild 14 repräsentieren. Das vorgegebene stereoskopische Format (Zielformat) ist in 2 ein Frame-Packing-Format z.B. mit einer zweifachen vollen HD-Bildauflösung von 1920 Pixeln Breite und 2x1080 Pixeln Höhe, ohne Stauchung in x- oder y-Richtung, zuzüglich einem aktiven Leerraum 27 zwischen einem links-Teilbild 26 und einem rechts-Teilbild 28. Die Konvertierung entspricht im Übrigen der Konvertierung gemäß 1. Ein jeweiliges Bild 22 des Ziel-Bildstroms 12 wird erzeugt unter Einbeziehung des links-Teilbildes 16, des rechts-Teilbildes 18, und des duplizierten 2D-Teilbildes 14.
  • 3 zeigt vereinfacht eine Konvertierung eines Bildes 12 eines Quell-Bildstroms in ein Bild 22 eines einen Ziel-Bildstrom gemäß einem weiteren Ausführungsbeispiel. In 3 bestehen ein Bild 12 des Quell-Bildstroms 1 aus dem links-Teilbild 16 und dem rechts-Teilbild 18, jedoch in einem anderen stereoskopischen Format als das Zielformat. Ein jeweiliges Bild 22 des Ziel-Bildstroms 12 wird erzeugt unter Einbeziehung des entnommenen links-Teilbildes 16 und des entnommenen rechts-Teilbildes 18, jedoch keines duplizierten 2D-Teilbildes. Die Konvertierung entspricht im Übrigen der Konvertierung gemäß 1 und 2.
  • 4 zeigt schematisch einen Konverter zum Durchführen eines wie oben oder wie nachfolgend beschriebenen Konvertierungsverfahrens. Der Konverter umfasst einen Bildstrom-Eingang 40 zum Entgegennehmen eines Quell-Bildstroms 10, eine Erkennungseinrichtung 42 zum Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms 10, eine Konvertierungseinrichtung 44 zum Konvertieren des Quell-Bildstroms in einen Ziel-Bildstrom 20, basierend auf dem erkannten stereoskopischen Format der Bilder des Quell-Bildstroms 10, und einen Bildstrom-Ausgang 46 zum Ausgeben des Ziel-Bildstroms 20 in einem vorgegebenen stereoskopischen Format. Nachdem die Erkennung des stereoskopischen Formats der 3d-Bilddaten des Quell-Bildstroms 10 basierend auf einem oder mehreren anfänglichen Bildern 12 des Quell-Bildstroms 10 durchgeführt wurde, werden weitere Bilder 12 des Quell-Bildstroms 10 und optional auch ggf. zwischengespeicherte anfängliche Bilder 12 des Quell-Bildstroms 10 in erzeugte Bilder 22 des Ziel-Bildstroms 20 konvertiert, gemäß Informationen 48 über das erkannte Format.
  • 5 zeigt schematisch ein Verfahren zum Erkennen eines Umfangs eines Bildbereichs von 3D-Bilddaten innerhalb der Bilddaten eines Bildes 12 des Quell-Bildstroms 10 und zum Erkennen eines stereoskopischen Formats der 3D-Bilddaten des Quell-Bildstroms 10. In einem Schritt S10 wird eine Hypothese angenommen über den Bildbereich der 3D-Bilddaten, also über einen 3D-Bilddatenbereich innerhalb der Bilddaten, welcher 3D-Bilddatenbereich einer Repräsentation von 3D-Bildinhalten entspricht. Dies entspricht einer Annahme über die Größe und die Lage eines Bereichs, der dem links-Teilbild 16 und dem rechts-Teilbild 18 entspricht, in den Bilddaten des Bildes 12 des Quell-Bildstroms 10. Dazu wird beispielsweise anfänglich angenommen, der Umfang der 3D-Bilddaten entspreche dem gesamten Umfang der Bilddaten des Bildes 12, wie es im Beispiel der 3 veranschaulicht ist.
  • In Schritt S12 wird ein Verfahren zum Erkennen eines stereoskopischen Kodierungsformats von links-Bilddaten und rechts-Bilddaten innerhalb des angenommenen 3D-Bilddatenbereichs, basierend auf Bildinhalten der Bilddaten, ausgeführt; Beispiele eines solchen Verfahrens werden weiter unten erläutert werden. Optional kann in Schritt S12 eingangs ein Vergleichen einer Bildgröße eines Bildes entsprechend dem angenommenen 3D-Bilddatenbereich des Quell-Bildstroms mit unterschiedlichen stereoskopischen Formaten zugeordneten Bildgrößen erfolgen, wobei beim Vergleichen jeweils überprüft wird, ob eine Vergleichsbedingung für ein einer jeweiligen Bildgröße zugeordnetes stereoskopisches Format erfüllt ist. Auf diese Weise können beispielsweise, wie in der Beschreibung weiter oben erläutert, Kodierungsformate wie Frame-Packing, Side-by-Side-(full) und/oder Top-and-Bottom-(full) erkannt werden. Das genannte Verfahren basierend auf Bildinhalten der Bilddaten wird dann in Schritt S12 ausgeführt, wenn bei dem Vergleichen keine der jeweiligen Vergleichsbedingungen erfüllt ist.
  • In Schritt S14 wird basierend auf dem Ergebnis der Erkennung des stereoskopischen Kodierungsformats entschieden, ob ein stereoskopisches Format von 3D-Bilddaten des Quell-Bildstroms 10 erkannt wurde. Falls ja, wurde das stereoskopisches Format erkannt. Information 48 über das erkannte Format und den Umfang des 3D-Bilddatenbereichs wird ausgegeben und wird nachfolgend für die Konvertierung verwendet. Falls nein, wird in Schritt S16 festgestellt, ob eine weitere Hypothese über den Bildbereich der 3D-Bilddaten zu überprüfen ist.
  • Falls nein, wird festgestellt, dass kein stereoskopisches Format von Bilddaten des Quell-Bildstroms 10 erkannt wurde. Die Bilddaten der Bilder 12 des Quell-Bildstroms werden dann als 2D-Bilddaten interpretiert und unter Duplizierung in Bilder 22 des Ziel-Bildstroms 20 im vorgegebenen stereoskopischen Zielformat konvertiert.
  • Falls ja (in Schritt S16), wird das Verfahren mit Schritt S10 fortgesetzt, wo eine neue Hypothese angenommen wird über den Bildbereich der 3D-Bilddaten. Dazu wird beispielsweise folgendes Verfahren ausgeführt, welches schematisch in 6 veranschaulicht wird:
    • - Detektieren von horizontalen Kanten 50 und vertikalen Kanten 52 in Bildinhalten der Bilddaten eines Bildes 12, wobei die Bilddaten des Bildes 12 als 2D-Bilddaten interpretiert werden;
    • - Auswählen detektierter horizontaler Kanten 50 und vertikaler Kanten 52, die zusammen einen Rand eines rechteckigen Bildbereichs definieren, wobei die Bilddaten des Bildes 12 als 2D-Bilddaten interpretiert werden.
  • In 6 entspricht der rechteckige Bildbereich dem links-Teilbild 16 und dem rechts-Teilbild 18. Die Kanten 50, 52 können beispielsweise basierend auf Kontrastwerten und/oder Farbwerten der Bildinhalte des Bildes 12 mittels entsprechender Merkmalsdetektoren erkannt werden. Die Kanten 50, 52 können beispielsweise einem inneren Rahmen eines Fensters einer Benutzeroberfläche entsprechen.
  • Das Verfahren wird dann mit dem Schritt S12 fortgesetzt. Gegebenenfalls können nacheinander weitere Hypothesen über den Bildbereich der 3D-Bilddaten überprüft werden, wenn beispielsweise mehrere rechteckige Bereiche innerhalb eines Bildes 12 vorhanden sind.
  • Die Hypothesen über den Bildbereich der 3D-Bilddaten können auch gleichzeitig oder zeitlich parallel überprüft werden.
  • Das Erkennen eines stereoskopischen Formats von Bilddaten, basierend auf Bildinhalten der Bilddaten, d.h. insbesondere das Erkennen eines stereoskopischen Kodierungsformats von links-Bilddaten und rechts-Bilddaten innerhalb des angenommenen 3D-Bilddatenbereichs basierend auf Bildinhalten der Bilddaten in Schritt S12, und insbesondere das Erkennen einer Anordnung von links-Bilddaten und rechts-Bilddaten innerhalb des angenommenen 3D-Bilddatenbereichs, kann beispielsweise mittels eines künstlichen Neuronalen Netzes erfolgen. Das künstliche Neuronale Netz wird beispielsweise für die Klassifikation des stereoskopischen Kodierungsformats basierend auf Bildinhalten der Bilddaten eines Eingangsbildes 12 trainiert. Das künstliche Neuronale Netz überprüft beispielsweise parallel mehrere zu überprüfende Hypothesen über das stereoskopische Format von Bilddaten des angenommenen 3D-Bilddatenbereichs.
  • Eine inzwischen etablierte Methode zur Klassifikation von Bildern ist, die Klassifikationsmethode von einem künstlichen Neuronalen Netz anhand von klassifizierten Beispielbildern lernen zu lassen. Für das vorliegende Klassifizierungsverfahren kann ein Deep Convolutional Neural Network (CNN) verwendet werden. Als Netzwerk-Topologie wird empfohlen, 6 oder mehr mal hintereinander eine Convolutional Layer (8 Filterkernel je 3x3 Pixel) mit einer Max-Pooling-Layer abzuwechseln, gefolgt von einer Fully Connected Layer. Als Aktivierungsfunktion wird in den verdeckten Schichten ReLU, und in der Ausgangsschicht SoftMax empfohlen. Zum Trainieren des Netzwerks werden beispielsweise ca. 10.000 Stereo-Bildpaare verwendet, die jeweils in jedem der zu unterscheidenden 3D-Formate als Eingabe Verwendung finden.
  • 7 zeigt schematisch ein Ausführungsbeispiel eines Erkennens eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms 10 mittels eines (wesentlich kleineren) künstlichen Neuronalen Netzes. Das Verfahren nach 7 hat den Vorteil, dass zur Ausführungszeit des Verfahrens nicht ein künstliches neuronales Netz von der oben beschriebenen Größe aufgerufen zu werden braucht. Das Verfahren kann beispielsweise für eine jeweilige Hypothese über den Bildbereich der 3D-Bilddaten ausgeführt werden, beispielsweise im Schritt S12 des Beispiels der 5.
  • In einem Schritt S20 werden Bildinhalte der Bilddaten eines Bildes 12 des Quell-Bildstroms 10 vorverarbeitet, indem globale Bildmerkmale aus Bildinhalten der Bilddaten des angenommenen 3D-Bilddatenbereichs extrahiert werden. Als Merkmale bieten sich an, die mittlere quadratische Summe der Differenzen von (a) horizontal benachbarten Pixeln, (b) vertikal benachbarten Pixeln, (c) um die halbe Bildbreite (oder die halbe Breite des angenommenen 3D-Bilddatenbereichs) zueinander versetzten Pixeln, (d) um die halbe Bildhöhe (oder die halbe Höhe des angenommenen 3D-Bilddatenbereichs) zueinander versetzten Pixeln und (e) Pixeln in jeder ungeraden Bildzeile zu Pixeln in der jeweils darauffolgenden geraden Bildzeile zu berechnen. Diese fünf skalaren Werte, die zu einem Eingangsbild 12 berechnet werden, werden als Eingabe in ein künstliches Neuronales Netz zur Erkennung des stereoskopischen Formats gegeben (Schritt S22). Das künstliche Neuronale Netz kann beispielsweise ein vollständig vernetztes künstlichen Neuronales Netz mit einer verdeckten Schicht von 50 ReLU-Neuronen und einer SoftMax-Ausgabeschicht sein. Ausgegeben wird Information 48 über das erkannte stereoskopische Format oder die Information 49, dass kein stereoskopisches Format erkannt wurde. Das künstliche Neuronale Netz wird wiederum trainiert wie oben beschrieben.
  • Zur Erkennung eines Frame-Interlaced-Formats können außerdem die folgenden globalen Bildmerkmale aus Bildinhalten der Bilddaten des angenommenen 3D-Bilddatenbereichs extrahiert werden und als Eingabe in das künstliche Neuronale Netz gegeben werden: Die mittlere quadratische Summe der Differenzen von (f) zeitlich um einen Frame versetzten Pixeln (an derselben Position), und von (g) zeitlich um zwei Frames versetzten Pixeln (an derselben Position). Im Falle eines Frame-Interlaced-Formats ist die Veränderung zwischen zeitlich direkt aufeinanderfolgenden Frames (d.h. Abstand von 1 Frame) größer als zwischen Frames mit dem Abstand 2 (d.h. Abstand von 2 Frames). Es werden also sieben skalare Werte verwendet.
  • Bei einem als zutreffend erkannten stereoskopischen Format, welches einer als zutreffend erkannten Anordnung von links-Teilbildern und rechts-Teilbildern in dem 3D-Bilddatenbereich des Quell-Bildstroms entspricht, kann außerdem in einem optionalen Schritt S24 eine Unterscheidung zwischen stereoskopischen Formaten mit oder ohne Stauchung des Bildinhalts in Richtung der Anordnung der links-Teilbilder und rechts-Teilbilder getroffen werden. Diese Unterscheidung kann beispielsweise dann erfolgen, wenn die links-Teilbilder und rechts-Teilbilder an separaten Positionen in einem Bild vorliegen (insbesondere also nicht bei zeilenweise verschachtelten Teilbildern, entsprechend einem Line-Alternative-Format, bei Farb-anaglyphischen Teilbildern, bei einem Frame-Interlaced-Format oder bei Teilbildern zur Ausnutzung des Pulfrich-Effektes).
  • Die Unterscheidung kann beispielsweise anhand eines Seitenverhältnisses des Bildbereichs der 3D-Bilddaten erfolgen. Beispielsweise kann bei einem Seitenverhältnis von 128/149 oder von etwa 0,87:1 auf ein Frame-Packing-Format geschlossen werden, welches keine Stauchung des Bildinhalts aufweist. Beispielsweise kann bei einem anderen Seitenverhältnis, welches kleiner als 1:1 ist, auf ein Top-Bottom-(full) Format geschlossen werden, welches keine Stauchung des Bildinhalts aufweist. Beispielsweise kann bei einem Seitenverhältnis von größer gleich 2:1 auf ein Side-by-Side-(full) Format geschlossen werden, welches keine Stauchung des Bildinhalts aufweist. Somit kann beispielsweise bei einem Seitenverhältnis von kleiner als 1:1 oder größer gleich 2:1 geschlossen werden, dass keine Stauchung des Bildinhalts vorliegt. Entsprechend kann beispielsweise bei einem Seitenverhältnis im Bereich von einschließlich 1:1 bis kleiner als 2:1 (exclusive) geschlossen werden, dass eine Stauchung des Bildinhalts mit dem Faktor 0,5 in der Richtung vorliegt, in welcher die Teilbilder nebeneinander oder übereinander angeordnet sind.
  • Anstelle des Schritts S24 kann aber auch eine Erkennung von Side-by-Side-(full)-, Top-and-Bottom-(full) oder Frame-Packing-Formaten anhand des Seitenverhältnisses bereits vor der Erkennung des stereoskopischen Formats der Schritte S20 und S22 erfolgen, wobei die Erkennung des stereoskopischen Formats in den Schritten S20 und S22 nur durchgeführt wird, wenn anhand des Seitenverhältnisses noch nicht auf ein bestimmtes stereoskopisches Format geschlossen werden konnte, beispielsweise also dann, wenn das Seitenverhältnis innerhalb des genannten Bereichs von einschließlich 1:1 bis kleiner als 2:1 (exclusive) liegt (beispielsweise wenn das Seitenverhältnis 16:9, also etwa 1,78:1 ist).
  • Die genannte Unterscheidung in Schritt S24 kann aber auch basierend auf Bildinhalten der 3D-Bilddaten erfolgen. Dazu kann beispielsweise ein Algorithmus zur Erkennung von Gegenständen oder Gesichtern in den Bildinhalten ausgeführt werden, wobei die Bilddaten jeweils gemäß einem stereoskopischen Format mit Stauchung sowie gemäß einem stereoskopischen Format ohne Stauchung interpretiert werden. Die Unterscheidung kann dann anhand einer Erkennungsrate erfolgen, d.h. basierend auf Anzahlen von erkannten Gegenständen oder Gesichtern für die jeweilige Interpretation der Bilddaten. Vorteilhaft ist, dass dann eine Unterscheidung unabhängig vom Seitenverhältnis getroffen werden kann. Erkennungsalgorithmen für die Erkennung von Alltagsgegenständen in Bildern sind an sich bekannt. Zum Trainieren entsprechender Convolutional Neural Networks (CNN) wird beispielsweise die Bilddatenbank Image-Net verwendet. „MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications“, Andrew G. Howard et al., arXiv:1704.04861v1 [cs.CV], beschreibt einen Algorithmus für die Erkennung von Objekten in Bildern.
  • 8 zeigt schematisch ein Verfahren zum Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms 10 basierend auf Bildinhalten der Bilddaten mittels Merkmalsdetektoren. Das Verfahren kann beispielsweise im Schritt S12 des Beispiels der 5 ausgeführt werden.
  • In einem Schritt S30 wird eine zu überprüfende Hypothese über ein stereoskopisches Format der 3D-Bilddaten des Quell-Bildstroms 10 ausgewählt, insbesondere eine zu überprüfende Hypothese über ein stereoskopisches Kodierungsformat von links-Bilddaten und rechts-Bilddaten innerhalb des angenommenen 3D-Bilddatenbereichs in Schritt S12, insbesondere eine zu überprüfende Hypothese über eine Anordnung von links-Bilddaten und rechts-Bilddaten innerhalb des angenommenen 3D-Bilddatenbereichs.
  • In einem Schritt S32 werden mittels eines Merkmals-Detektors paarweise korrespondierende Merkmale in links-Bildinhalten und rechts-Bildinhalten der 3D-Bilddaten detektiert, wobei die Annahme, welche Bilddaten die links-Bildinhalte repräsentieren, und welche Bilddaten die rechts-Bildinhalte repräsentieren, gemäß der aktuellen Hypothese getroffen wird. Es ist ein übliches Verfahren, für das Finden von einander korrespondierenden Objekten in Stereo-Bildpaaren sogenannte lokale MerkmalsDetektoren zu verwenden. Diese detektieren gut lokalisierbare Regionen in Bildern und ordnen diesen jeweils eine Beschreibung in Form eines Merkmalsvektors zu, die es ermöglicht, einander ähnliche Regionen zu identifizieren. Auf diese Weise lässt sich zu einzelnen Bildregionen detektieren, ob und wenn ja wo diese Regionen in einem zweiten Bild eines Stereo-Paars liegen. Beispiele für hierfür verwendbare Merkmalsdetektoren sind SIFT ( U.S. Patent 6,711,293 ), SURF, GLOH, FAST, MSER und SKB ( WO 2012/136642 A1 ).
  • Bei einem gültigen Stereo-Bildpaar liegen einander korrespondierende Regionen oder Merkmale in etwa auf derselben y-Koordinate bei je nach Disparität abweichender x-Koordinate. Wenn man nun ein Eingangsbild je nach möglichem 3D-Format (d.h. gemäß der jeweiligen Hypothese) in potentielle Stereo-Bildpaare zerlegt, so zeichnet sich das tatsächlich vorliegende 3D-Format durch zwei Bedingungen aus.
  • Eine erste Bedingung ist, dass eine kritische Mindestmenge an korrespondierenden Regionen oder Merkmalen sich paarweise in der y-Koordinate nicht mehr als um einen kritischen Schwellenwert unterscheiden (gibt es zu einer Region in einem Stereo-Bild mehrere korrespondierende, d.h. hinreichend ähnliche Regionen in dem anderen Stereo-Bild, wird das zueinander nächste Korrespondenzpaar genommen). Dieses Ähnlichkeitskriterium für die y-Koordinaten der paarweise korrespondierenden Merkmale wird für die aktuelle Hypothese in Schritt S34 überprüft; falls nein, wird das Verfahren mit Schritt S38 fortgesetzt, in welchem festgestellt wird, ob noch eine weitere Hypothese zu überprüfen ist; in diesem Fall wird das Verfahren ab Schritt S30 für die nächste zu überprüfende Hypothese fortgesetzt. Falls das Ähnlichkeitskriterium in Schritt S34 erfüllt ist, wird in Schritt S36 ein Maß für die Streuung der paarweisen Differenzen der x-Koordinaten der paarweise korrespondierenden Merkmale berechnet, beispielsweise die Varianz in der paarweisen Differenz der x-Koordinaten der korrespondierenden Merkmale. In Schritt S38 erfolgt, falls eine weitere Hypothese zu überprüfen ist, eine Fortsetzung mit Schritt S30 für die nächste zu überprüfende Hypothese.
  • Falls in Schritt S38 alle Hypothesen überprüft wurden, erfolgt in Schritt S40 unter allen Hypothesen, die die erste Bedingung erfüllen, eine Bestimmung derjenigen Hypothese als zutreffend, die einen größten Wert des Maßes für die Streuung der paarweisen Differenzen der x-Koordinaten der paarweise korrespondierenden Merkmale aufweist.
  • Dies ist die zweite Bedingung für das tatsächlich vorliegende 3D-Format. Dadurch kann gewährleistet werden, dass z.B. ein stereoskopisches Side-by-Side-Bild nicht als stereoskopisches Zeilen-Interlaced-Bild interpretiert wird. Hypothesen, für die das Maß für die Streuung unterhalb eines unteren Schwellwertes liegt oder oberhalb eines oberen Schwellwertes liegt, können von dieser Auswertung ausgenommen werden.
  • Die zu überprüfenden Hypothesen über ein stereoskopisches Format der 3D-Bilddaten des Quell-Bildstroms 10 können auch gleichzeitig oder zeitlich parallel überprüft werden. D.h., anstelle einer Auswahl in Schritt S30 und eines Rücksprungs in Schritt S38 werden die Schritte S32 bis S36 für die jeweiligen Hypothesen parallel ausgeführt. Es wird dann in Schritt S40 die im Vergleich der Hypothesen beste Hypothese ausgewählt.
  • In Schritt S42 wird festgestellt, ob eines der potentiellen 3D-Formate die erste und die zweite Bedingung erfüllt. Falls nein, wird ein 2D-Format angenommen. In Schritt S42 wird dann entschieden, dass die potentiellen 3D-Bilddaten kein stereoskopisches Format aufweisen. Falls ja, wird die betreffende Hypothese als zutreffend erkannt, und das entsprechende stereoskopische Format wird als das stereoskopische Format der 3D-Bilddaten des Quell-Bildstroms erkannt.
  • Bei einer als zutreffend erkannten Hypothese über ein 3D-Format, welches einer als zutreffend erkannten Hypothese über eine Anordnung von links-Teilbildern und rechts-Teilbildern in den 3D-Bilddaten des Quell-Bildstroms entspricht, kann außerdem eine Unterscheidung zwischen 3D-Formaten mit oder ohne Stauchung des Bildinhalts in Richtung der Anordnung der links-Teilbilder und rechts-Teilbilder getroffen werden. Dies kann auf die oben für den Schritt S24 beschriebenen Weisen durchgeführt werden. Wiederum kann eine Erkennung von Side-by-Side-(full), Top-and-Bottom-(full) oder Frame-Packing-Formaten anhand des Seitenverhältnisses aber auch bereits vor der Erkennung des stereoskopischen Formats der Schritte S30 bis S42 erfolgen, wie oben beschrieben.
  • 9 zeigt schematisch eine Konvertierung eines Bildes 12 eines Quell-Bildstroms in ein Bild 22 eines Ziel-Bildstroms 20 gemäß einem weiteren Ausführungsbeispiel. Das Eingangsbild 22 enthält hier 3D-Bilddaten, die Farb-anaglyphisch kodiert sind, beispielsweise als Rot-Blau-Anaglyphenbild 60, sowie 2D-Bilddaten eines 2D-Teilbildes 14. Ein Rot-Blau-Anaglyphenbild enthält keine Farbinformation. Der Rotkanal des Analglyphenbildes 60 wird als links-Teilbild 16 entnommen und als Helligkeitswert (Grauwert) auf allen R,G,B-Farbkanälen des links-Teilbildes 26 des erzeugten Ausgabebildes 22 ausgegeben; entsprechend wird der Blaukanal des Analglyphenbildes 60 als rechts-Teilbild 18 entnommen und als Helligkeitswert (Grauwert) auf allen R,G,B-Farbkanälen des rechts-Teilbildes 28 des erzeugten Ausgabebildes 22 ausgegeben. Die 3D-Bilddaten werden somit monochromatisch ausgegeben. Die Konvertierung entspricht im Übrigen der Konvertierung gemäß 1. Ein Rot-Grün-Anaglyphenbild kann in entsprechender Weise konvertiert werden. Bei Farb-Kombinationen, bei denen originale Farbinformation im Anaglyphenbild enthalten sein kann, wie etwa einem Rot-Cyan-Anaglyphenbild, kann auch eine annähernde Rekonstruktion von Farbinformation für die Teilbilder 26, 28 aus den beiden Teilbildern 16, 18 in an sich bekannter Weise durch Korrespondenzanalyse erfolgen. Die beschriebenen Erkennungsverfahren mittels künstlichem Neuronalen Netz oder mittels Merkmalsdetektion können leicht um die Erkennung von Farb-anaglyphisch kodierten stereoskopischen Formaten erweitert werden, wenn, z.B. zur Detektion korrespondierender Merkmale, die entnommenen links- und rechts-Teilbilder bei der betreffenden Hypothese monochromatisch ausgewertet werden oder, z.B. bei der Vorverarbeitung von Bildinhalten für ein künstliches Neuronales Netz zusätzlich als Merkmal die mittlere quadratische Summe der Differenzen von (h) Rotanteilen und Blauanteilen von Pixeln berechnet wird.
  • 10 zeigt schematisch eine Konvertierung eines Bildes 12 eines Quell-Bildstroms in ein Bild 22 eines Ziel-Bildstroms 20 gemäß einem weiteren Ausführungsbeispiel, das sich vom Beispiel der 9 dadurch unterscheidet, dass keine Konvertierung der Farben stattfindet. So kann ein Rot-Cyan-Anaglyphenbild farbige stereoskopische Darstellungen ermöglichen. Die Ausgabe der links- und rechts-Teilbilder 16, 18 erfolgt hier mit den im Eingangsbild 12 vorliegenden Farben. Bei einem Rot-Cyan-Anaglyphenbild kann aber auch das Verfahren gemäß dem Beispiel der 9 eingesetzt werden.
  • 11 zeigt schematisch eine Konvertierung von Bildern 12 eines Quell-Bildstroms 10 in Bilder 22 eines Ziel-Bildstroms 20 gemäß einem weiteren Ausführungsbeispiel. Die Bilder 12 des Quell-Bildstroms 10 sind für die Nutzung des Pulfrich-Effektes ausgelegt. Dies kann daran erkannt werden, dass eine vorherrschende Bewegung von Bildinhalten von rechts nach links oder umgekehrt vorliegt. Als rechts-Teilbild 28 für ein zu erzeugendes Ausgangsbild 22 wird beispielsweise ein Teilbild 62 eines Eingangsbildes 12 entnommen, während als links-Teilbild 26 für das gleiche zu erzeugende Ausgangsbild 22 eine Teilbild 64 eines um ein Bild oder um zwei Bilder zurückliegenden Bildes 12' des Quell-Bildstroms 10 entnommen wird (oder umgekehrt, je nach Kodierungsformat). Die zueinander zugeordneten 3D-Bilddaten liegen in nacheinander folgenden Bildern 12, 12' vor. Die vorherrschende Bewegung kann beispielsweise dem Hintergrund zugeordnet werden, so dass aus der Richtung der Bewegung erkannt werden kann, ob das linke oder das rechte Auge das verzögerte Bild erhalten soll. Die beschriebenen Erkennungsverfahren mittels künstlichem Neuronalen Netz oder mittels Merkmalsdetektion können leicht um die Erkennung von zur Nutzung des Pulfrich-Effekts ausgelegten stereoskopischen Formaten erweitert werden, wenn, z.B. zur Detektion korrespondierender Merkmale, die links- und rechts-Teilbilder bei der betreffenden Hypothese aufeinanderfolgenden Bildern des Quell-Bildstroms entnommen werden oder z.B. bei der Vorverarbeitung von Bildinhalten für ein künstliches Neuronales Netz zusätzlich als Merkmal das oben beschriebene globale Bildmerkmal (f) und ggf. auch (g) berechnet wird. Bei für die Ausnutzung des Pulfrich-Effektes geeigneten Bildinhalten nimmt das Maß der Ähnlichkeit mit jedem weiteren Frame ab, im Gegensatz zum Frame-Interlaced-Format.
  • Die beschriebenen Erkennungsverfahren mittels künstlichem Neuronalen Netz oder mittels Merkmalsdetektion können außerdem leicht um die Erkennung eines Frame-Interlaced-Formats erweitert werden; für ein künstliches Neuronales Netz wurde dies oben bereits beschrieben. Bei der Verwendung von Merkmalsdetektoren werden dazu beispielsweise korrespondierende Merkmale in Bildinhalten eines Frames f(n), eines direkt vorhergehenden Frames f(n-1) und eines diesem wiederum direkt vorhergehenden Frames f(n-2) ermittelt. Anhand des Vorzeichens der horizontalen Positionsunterschiede kann erkannt werden, welcher Frame links-Bilddaten entspricht, und welcher Frame rechts-Bildinhalten entspricht. Somit kann die Hypothese über das Format aufgestellt werden und wie oben beschrieben den Schritten S34 und folgenden unterzogen werden. Bei einem Frame-Interlaced-Format sind aufgrund der Disparität die horizontalen Positionsunterschiede von korrespondierenden Merkmalen zwischen Frame f(n) und Frame f(n-1) signifikant größer als zwischen Frame f(n) und Frame f(n-2). Dieses Kriterium für die y-Koordinaten der für drei Frames korrespondierenden Merkmale kann für diese Hypothese zusätzlich zum Ähnlichkeitskriteriums in Schritt S34 überprüft werden. Bei einem Format zur Ausnutzung des Pulfrich-Effektes nehmen hingegen die horizontalen Positionsunterschiede von korrespondierenden Merkmalen mit größerem zeitlichen Abstand weiter zu, sind also zwischen Frame f(n) und Frame f(n-2) größer als zwischen Frame f(n) und Frame f(n-1). Dieses Kriterium für die y-Koordinaten der für drei Frames korrespondierenden Merkmale kann für diese Hypothese zusätzlich zum Ähnlichkeitskriteriums in Schritt S34 überprüft werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 6711293 [0082]
    • WO 2012/136642 A1 [0082]

Claims (9)

  1. Verfahren zum Konvertieren eines Quell-Bildstroms (10), der Bilddaten in einem stereoskopischen Format enthält, in einen Ziel-Bildstrom (20), der Bilder (22) in einem vorgegebenen stereoskopischen Format aufweist, wobei die Bilder (22) jeweils ein links-Teilbild (26) für ein linkes Auge und ein rechts-Teilbild (28) für ein rechtes Auge umfassen, wobei das Verfahren die Schritte umfasst: Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms (10) basierend auf Bildinhalten der Bilddaten, Entnehmen von links-Teilbildern (16) für ein linkes Auge und rechts-Teilbildern (18) für ein rechtes Auge aus Bilddaten des Quell-Bildstroms (10), wobei diese Bilddaten des Quell-Bildstroms (10) gemäß dem erkannten stereoskopischen Format interpretiert werden, Erzeugen von Bildern (22) des Ziel-Bildstroms (20) im vorgegebenen stereoskopischen Format unter Einbeziehung der entnommenen links-Teilbilder (16) und rechts-Teilbilder (18).
  2. Verfahren nach Anspruch 1, wobei das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten umfasst: Überprüfen (S30, S32, S34, S36, S38, S40) von mehreren Hypothesen über ein stereoskopisches Format von Bilddaten des Quell-Bildstroms (10), Erkennen (S42) des stereoskopischen Formats einer Hypothese als das stereoskopische Format der Bilddaten, wenn in dem Schritt des Überprüfens die Hypothese als zutreffend erkannt wurde.
  3. Verfahren nach Anspruch 2, wobei das Überprüfen von mehreren Hypothesen umfasst: Detektieren (S32), für eine jeweilige Hypothese von zu überprüfenden Hypothesen, von paarweise korrespondierenden Merkmalen in links-Bildinhalten und rechts-Bildinhalten der Bilddaten, wobei die Bilddaten gemäß der betreffenden Hypothese als die links-Bildinhalte und die rechts-Bildinhalte repräsentierend interpretiert werden; Erkennen (S34, S36, S40) einer Hypothese als zutreffend basierend auf sich paarweise hauptsächlich in ihren x-Koordinaten unterscheidenden Positionen von detektierten, paarweise korrespondierenden Merkmalen.
  4. Verfahren nach Anspruch 3, bei dem in dem Schritt des Erkennens einer Hypothese als zutreffend das Erkennen einer Hypothese als zutreffend erfolgt, wenn die Hypothese unter denjenigen Hypothesen, für die ein Ähnlichkeitskriterium für die y-Koordinaten der paarweise korrespondierenden Merkmale für die betreffende Hypothese erfüllt ist, einen größten Wert eines Maßes für die Streuung der paarweisen Differenzen der x-Koordinaten der paarweise korrespondierenden Merkmale aufweist.
  5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms basierend auf Bildinhalten der Bilddaten mittels eines künstlichen Neuronalen Netzes erfolgt (S22).
  6. Verfahren nach Anspruch 5, bei dem das Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms (10) basierend auf Bildinhalten der Bilddaten eine Vorverarbeitung (S20) von Bildinhalten der Bilddaten umfasst, bei der globale Bildmerkmale aus Bildinhalten der Bilddaten extrahiert werden und das künstliche Neuronale Netz die extrahierten globalen Bildmerkmale als Eingangssignale erhält.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei das Verfahren umfasst: Erkennen (S10, S12, 14, S16) eines Umfangs eines Bildbereichs von Bilddaten, die ein stereoskopisches Format aufweisen.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei das Verfahren umfasst: Erkennen eines Umfangs eines Bildbereichs von 2D-Bilddaten, und Entnehmen von 2D-Teilbildern (14) aus 2D-Bilddaten des Quell-Bildstroms (10), wobei das Erzeugen von Bildern (22) des Ziel-Bildstroms (12) im vorgegebenen stereoskopischen Format unter Einbeziehung der entnommenen links-Teilbilder (16) und rechts-Teilbilder (18) und unter Einbeziehung der entnommenen 2D-Teilbilder (14) erfolgt, welche dupliziert werden.
  9. Vorrichtung zum Konvertieren eines Quell-Bildstroms (10), der Bilddaten in einem stereoskopischen Format enthält, in einen Ziel-Bildstrom (20), der Bilder (22) in einem vorgegebenen stereoskopischen Format aufweist, wobei die Bilder (22) jeweils ein links-Teilbild (26) für ein linkes Auge und ein rechts-Teilbild (28) für ein rechtes Auge umfassen, umfassend: eine Erkennungseinrichtung (42) zum Erkennen eines stereoskopischen Formats von Bilddaten des Quell-Bildstroms (10) basierend auf Bildinhalten der Bilddaten; und eine Konvertierungseinrichtung (44) zum Konvertieren des Quell-Bildstroms (10) in den Ziel-Bildstrom (20), wobei die Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 eingerichtet ist.
DE102018113822.9A 2018-06-11 2018-06-11 Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten Ceased DE102018113822A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102018113822.9A DE102018113822A1 (de) 2018-06-11 2018-06-11 Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018113822.9A DE102018113822A1 (de) 2018-06-11 2018-06-11 Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten

Publications (1)

Publication Number Publication Date
DE102018113822A1 true DE102018113822A1 (de) 2019-12-12

Family

ID=68652065

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018113822.9A Ceased DE102018113822A1 (de) 2018-06-11 2018-06-11 Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten

Country Status (1)

Country Link
DE (1) DE102018113822A1 (de)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US20100053306A1 (en) * 2008-09-02 2010-03-04 Yasutaka Hirasawa Image Processing Apparatus, Image Processing Method, and Program
WO2010151049A2 (en) * 2009-06-23 2010-12-29 Samsung Electronics Co., Ltd. Method and apparatus for automatic transformation of three-dimensional video
WO2011071467A1 (en) * 2009-12-09 2011-06-16 Thomson Licensing Method for distinguishing a 3d image from a 2d image and for identifying the presence of a 3d image format by feature correspondence determination
WO2011162737A1 (en) * 2010-06-24 2011-12-29 Thomson Licensing Detection of frame sequential stereoscopic 3d video format based on the content of successive video frames
WO2012136642A1 (en) 2011-04-08 2012-10-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Feature descriptor for image sections

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US20100053306A1 (en) * 2008-09-02 2010-03-04 Yasutaka Hirasawa Image Processing Apparatus, Image Processing Method, and Program
WO2010151049A2 (en) * 2009-06-23 2010-12-29 Samsung Electronics Co., Ltd. Method and apparatus for automatic transformation of three-dimensional video
WO2011071467A1 (en) * 2009-12-09 2011-06-16 Thomson Licensing Method for distinguishing a 3d image from a 2d image and for identifying the presence of a 3d image format by feature correspondence determination
WO2011162737A1 (en) * 2010-06-24 2011-12-29 Thomson Licensing Detection of frame sequential stereoscopic 3d video format based on the content of successive video frames
WO2012136642A1 (en) 2011-04-08 2012-10-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Feature descriptor for image sections

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOWARD, Andrew G. [u.a.]: MobileNets: Efficient convolutional neural networks for mobile vision applications. 17.04.2017. S. 1-9. URL: https://arxiv.org/pdf/1704.04861 [abgerufen am 04.09.2018]. - arXiv: 1704.04861vl. *

Similar Documents

Publication Publication Date Title
DE69519980T2 (de) Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
DE69225941T2 (de) Bildkodierung und/oder -dekodierung
DE10016074B4 (de) Verfahren und Vorrichtung zur Erzeugung von 3D-Bildern
DE69413148T2 (de) Verfahren zur Bestimmung von Bewegungsvektoren in kleinen Bildsegmenten in Fernsehbildern
DE69621778T2 (de) Tiefenabhängige parallaktische pixelverschiebung
DE69221346T2 (de) Vorrichtung und Verfahren zur Erstellung stereoskopischer Bilder
DE69415638T2 (de) Formatdetektor für Videosignalempfänger
DE4242796C2 (de) Hocheffizientes Kodierverfahren für mit Zweipegelbildern vermischte natürliche Bilder
DE60003032T2 (de) Verfahren zur bildsegmentation
DE69512950T2 (de) Verfahren zur Detektion von identischen Teilbildern
EP3789962B1 (de) Verfahren und vorrichtung zum erzeugen von daten für eine zwei- oder dreidimen-sionale darstellung zumindest eines teils eines objekts und zum erzeugen der zwei- oder dreidimensionalen darstellung zumindest des teils des objekts
WO2008064617A1 (de) Anordnung und verfahren zur aufnahme und wiedergabe von bildern einer szene und/oder eines objektes
WO2007107315A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
DE69321308T2 (de) Anzeigesteuergerät
DE69409554T2 (de) Von 3D-Bildsystem abgeleitete visuelle Darstellung von Information
WO2011103866A2 (de) Verfahren zur visualisierung von dreidimensionalen bildern auf einer 3d-anzeigevorrichtung und 3d-anzeigevorrichtung
DE102011086318A1 (de) Positionsbestimmung eines Objekts mittels Erfassung eines Positionsmusters durch optischen Sensor
DE112015003626T5 (de) System und verfahren zum erhöhen der bittiefe von bildern
DE212018000230U1 (de) System zum Anzeigen der Fußgängerdynamik
DE102013217826A1 (de) Verfahren zum erzeugen, übertragen und empfangen stereoskopischer bilder, und zugehörige geräte
EP0471878A1 (de) Verfahren zur Bild-im-Bild-Einblendung und Einrichtung zur Durchführung des Verfahrens
DE10084783B3 (de) System und Verfahren zur Generierung von Videoframes
EP2023638A2 (de) Verfahren zur Reduktion von Bildartefakten
DE60031559T2 (de) Verfahren und gerät zur lernfähigen klassenauswahl nach mehreren klassifikationen
DE102018113822A1 (de) Konvertieren eines Bildstroms mit stereoskopischen Bildinhalten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final