DE112020005730T5 - Gemeinsame Rolling-Shutter-Korrektur und Bildscharfzeichnung - Google Patents

Gemeinsame Rolling-Shutter-Korrektur und Bildscharfzeichnung Download PDF

Info

Publication number
DE112020005730T5
DE112020005730T5 DE112020005730.5T DE112020005730T DE112020005730T5 DE 112020005730 T5 DE112020005730 T5 DE 112020005730T5 DE 112020005730 T DE112020005730 T DE 112020005730T DE 112020005730 T5 DE112020005730 T5 DE 112020005730T5
Authority
DE
Germany
Prior art keywords
view
image
blurred
correction
sharpening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020005730.5T
Other languages
English (en)
Inventor
Quoc-Huy Tran
Bingbing Zhuang
Pan JI
Manmohan Chandraker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112020005730T5 publication Critical patent/DE112020005730T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20201Motion blur correction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

Es wird ein Verfahren zum gemeinsamen Entfernen von Rolling-Shutter-Verzerrungen (RSS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild dargestellt. Das Verfahren enthält das Erzeugen (801) mehrerer RS-unscharfer Bilder von einer Kamera, das Synthetisieren (803) RS-unscharfer Bilder aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen durch Nutzen eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls zum Erzeugen von Trainingsdaten zum Trainieren einer gemeinsamen neuronalen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetzes (CNN) und das Vorhersagen (805) eines RS-berichtigten und scharfgezeichneten Bilds aus dem einzelnen eingegebenen RS- und unscharfen Bild durch Nutzen des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN.

Description

  • INFORMATIONEN ÜBER VERWANDTE ANMELDUNGEN
  • Diese Anmeldung beansprucht die Priorität der vorläufigen Anmeldung Nr. 62/939.016 , eingereicht am 22. November 2019, und der US-Patentanmeldung Nr. 17/090.508 , eingereicht am 5. November 2020, die hier durch Bezugnahme vollständig mit aufgenommen sind.
  • HINTERGRUND
  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft ein Struktur und Bewegung erkennendes Rolling-Shutter-Verzerrungs- (RS-Verzerrungs-) und Unschärfe-Rendering-Modul zum Erzeugen synthetisierter RS-unscharfer Bilder und wichtiger eine durchgehende Lernvorgehensweise zum gleichzeitigen Beseitigen von RS-Verzerrungen und Unschärfeartefakten aus einem einzelnen eingegebenen RS- und unscharfen Bild.
  • Beschreibung des verwandten Gebiets
  • In den meisten Verbraucherkameras wie etwa z. B. Webcams, Mobiltelefone und Tablets werden Komplementär-Metalloxid-Halbleiter-Sensoren (CMOS-Sensoren) mit ihren Kostenvorteilen genutzt. Allerdings ist ein Nachteil bei CMOS-Sensoren, dass sie durch den Rolling-Shutter-Mechanismus (RS-Mechanismus) arbeiten, der im Gegensatz zu gleichzeitig in einer Global-Shutter-Alternative (GS-Alternative) jede Zeile der Sensoranordnung nacheinander (mit einer konstanten Zeitverzögerung zwischen aufeinanderfolgenden Zeilen) belichtet. Für RS-Kameras kann die Anwesenheit einer Kamerabewegung während der Belichtungszeitdauer in dem aufgenommenen Bild RS-Verzerrungen verursachen, die üblicherweise, insbesondere unter lichtschwachen Bedingungen wie etwa in Innenszenen, mit Unschärfeartefakten gekoppelt sind.
  • ZUSAMMENFASSUNG
  • Es ist ein computerimplementiertes Verfahren zum gemeinsamen Entfernen von Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild dargestellt. Das Verfahren enthält ein Struktur und Bewegung erkennendes RS-Verzerrungs- und Unschärfe-Rendering-Modul, um aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen synthetisierte RS-unscharfe Bilder zu erzeugen, und ein gemeinsames Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetz, um aus einem einzelnen eingegebenen RS- und unscharfen Bild ein RS-berichtigtes und scharfgezeichnetes Bild vorherzusagen.
  • Es wird ein nichttransitorisches computerlesbares Ablagespeichermedium, das ein computerlesbares Programm umfasst, zum gemeinsamen Entfernen von Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und verzerrten Bild dargestellt, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, veranlasst, dass der Computer die Schritte eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls zum Erzeugen synthetisierter RS-unscharfer Bilder aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen und eines gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes zum Vorhersagen eines RS-berichtigten und scharfgezeichneten Bilds aus einem einzelnen eingegebenen RS- und unscharfen Bild ausführt.
  • Es wird ein System zum gemeinsamen Entfernen von Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild dargestellt. Das System enthält einen Speicher und einen oder mehrere Prozessoren in Kommunikation mit dem Speicher, die dafür konfiguriert sind, aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen durch Nutzen eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls synthetisierte RS-unscharfe Bilder zu erzeugen und aus einem einzelnen eingegebenen RS- und unscharfen Bild durch Nutzen eines gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes ein RS-berichtigtes und scharfgezeichnetes Bild vorherzusagen.
  • Diese und weitere Merkmale und Vorteile gehen aus der folgenden ausführlichen Beschreibung veranschaulichender Ausführungsformen hervor, die zusammen mit den beigefügten Zeichnungen zu lesen ist.
  • Figurenliste
  • Die Offenbarung wird anhand der folgenden Figuren Einzelheiten in der folgenden Beschreibung bevorzugter Ausführungsformen geben; es zeigen:
    • 1 einen Blockschaltplan/Ablaufplan eines Struktur und Bewegung erkennenden Rolling-Shutter-Verzerrungs- (RS-Verzerrungs-) und Unschärfe-Rendering-Moduls und eines gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes gemäß Ausführungsformen der vorliegenden Erfindung;
    • 2 einen Blockschaltplan/Ablaufplan einer beispielhaften Architektur des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes gemäß Ausführungsformen der vorliegenden Erfindung;
    • 3 einen Blockschaltplan/Ablaufplan einer beispielhaften Architektur für das Generatornetz in 2 gemäß Ausführungsformen der vorliegenden Erfindung;
    • 4 einen Blockschaltplan/Ablaufplan einer Anwendung des RS-Korrektur- und Scharfzeichnungsverfahrens auf gleichzeitige Lokalisierung und Abbildung (SLAM) mit RS-unscharfen Videos gemäß Ausführungsformen der vorliegenden Erfindung;
    • 5 einen Blockschaltplan/Ablaufplan einer Anwendung des RS-Korrektur und Scharfzeichnungsverfahrens auf Struktur aus Bewegung (SFM) mit RS-unscharfen Bildern gemäß Ausführungsformen der vorliegenden Erfindung;
    • 6 einen Blockschaltplan/Ablaufplan einer beispielhaften praktischen Anwendung des Struktur und Bewegung erkennenden Rolling-Shutter-Verzerrungs-(RS-Verzerrungs-) und Unschärfe-Rendering-Moduls und des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes gemäß Ausführungsformen der vorliegenden Erfindung;
    • 7 einen Blockschaltplan/Ablaufplan eines beispielhaften Verarbeitungssystems für die RS-Korrektur und Scharfzeichnung gemäß Ausführungsformen der vorliegenden Erfindung; und
    • 8 einen Blockschaltplan/Ablaufplan eines beispielhaften Verfahrens für die RS-Korrektur und Scharfzeichnung gemäß Ausführungsformen der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung führt eine durchgehende Lernvorgehensweise für das gemeinsame Entfernen von Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild ein. Außerdem führt die vorliegende Erfindung eine Prozedur zum Synthetisieren realistischer RS- und unscharfer Bilder ein, die für das Training des Verfahrens verwendet werden kann. Schließlich zeigen die beispielhaften Ausführungsformen die Anwendungen der vorliegenden Erfindung auf die Ziele von Struktur aus Bewegung (SFM) mit RS-unscharfen Bildern sowie die Gleichzeitige Lokalisierung und Abbildung (SLAM) mit RS-unscharfen Videos.
  • Die vorliegende Erfindung führt eine durchgehende Lernvorgehensweise zum gleichzeitigen Beseitigen von RS-Verzerrungen und Unschärfeartefakten aus einem einzelnen eingegebenen RS- und unscharfen Bild ein. Darüber hinaus führt die vorliegende Erfindung eine neue Synthetisierungsprozedur von RS- und unscharfen Bildern ein, die eine große Anzahl von RS- und unscharfen Bildern zum Trainieren eines neuronalen Faltungsnetzes (CNN) erzeugt.
  • Die beispielhaften Ausführungsformen führen eine CNN-Architektur ein, die das Ausführen einer gemeinsamen Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung in einer einzelnen Vorwärtsrechnung lernt. Da die Aufgaben der Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung eng gekoppelt sind, kann das beispielhafte CNN daraus, dass sie gemeinsam in Angriff genommen werden, gemeinsam genutzte Merkmale und Vorteile extrahieren. Um einen umfangreichen Datensatz verschiedener und realistischer RS- und unscharfer Bilder für das Training des CNN zu erhalten, führen die beispielhaften Ausführungsformen eine Struktur und Bewegung erkennende RS-Verzerrungs- und Unschärfe-Synthetisierungs-Pipeline ein, die während des Rendering sowohl Kamerabewegung als auch Tiefenkarte nutzt. Außerdem wenden die beispielhaften Ausführungsformen die vorgeschlagene Vorgehensweise auf SFM/SLAM mit RS-unscharfen Bildern/Videos an.
  • 1 ist ein Blockschaltplan/Ablaufplan eines Struktur und Bewegung erkennenden Rolling-Shutter-Verzerrungs- (RS-Verzerrungs-) und Unschärfe-Rendering-Moduls und eines gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes gemäß Ausführungsformen der vorliegenden Erfindung.
  • 1 stellt das Struktur und Bewegung erkennende RS-Verzerrungs- und Unschärfe-Rendering-Modul und das gemeinsame Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetz dar. Während der Trainingsphase 150 werden durch das Struktur und Bewegung erkennende RS-Verzerrungs- und Unschärfe-Rendering-Modul 110 eine Menge Global-Shutter-scharfer (GS-scharfer) Bilder 112, entsprechender GS-scharfer Tiefenkarten 104 und synthetisierter RS-Kamerabewegungen 102 verwendet, um synthetisierte RS-unscharfe Bilder 120 zu erzeugen. Genauer nutzen die beispielhaften Ausführungsformen die Tiefe und die Intra-Einzelbild-Kamerabewegung, um den 2D-Bewegungsablauf zu berechnen, der daraufhin verwendet wird, um Pixel in einem lokalen Gebiet zu mitteln (eine Unschärfe zu erzeugen) und zu bewegen (eine RS-Verzerrung zu erzeugen). Die synthetisierten RS-unscharfen Bilder 120 und die ursprünglichen GS-scharfen Bilder 112 werden daraufhin in einer durchgehenden Weise als Eingangsdaten bzw. als Ground-Truth-Überwachung für das Training des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes 130 verwendet. Zu dem Testzeitpunkt 160 wird ein einzelnes echtes RS-unscharfes Bild 140 in das Netz 130 eingegeben, das in einer einzelnen Vorwärtsrechnung das entsprechende RS-berichtigte und scharfgezeichnete Bild 145 erzeugt.
  • 2 ist ein Blockschaltplan/Ablaufplan einer beispielhaften Architektur des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes gemäß Ausführungsformen der vorliegenden Erfindung.
  • Während der Trainingsphase 150 sagt das Generatornetz 204 bei einem gegebenen eingegebenen RS-unscharfen Bild 202 das entsprechende GS-scharfe Bild 206 vorher. Das Diskriminatornetz 212 nimmt entweder das vorhergesagte GS-scharfe Bild 206 oder das Ground-Truth-GS-scharfe Bild 208 und soll klassifizieren, ob es „unecht“ (das vorhergesagte Bild 206) oder „echt“ (das Ground-Truth-Bild 208) ist. Diese zwei Teilnetze werden über den kontradiktorischen Verlust 214 gemeinsam trainiert. Außerdem fügen die beispielhaften Ausführungsformen den Wahrnehmungsverlust 210 hinzu, der die Differenzen zwischen den Aktivierungen in unterschiedlichen Schichten (conv1_1, conv2_1, conv3_1, conv4_1, conv5_1) des Netzes der Visual Geometry Group (VGG) (das z. B. an ImageNet vortrainiert wurde), das auf das vorhergesagte Bild 206 und auf das Ground-Truth-Bild 208 angewendet wird, minimiert. Zum Testzeitpunkt 160 ist nur das Generatornetz 204 notwendig, während das Diskriminatornetz 212 ausgesondert wird. Anhand von 3 ist eine beispielhafte Architektur für das Generatornetz 204 gegeben, während als das Diskriminatornetz 212 ein Mehrskalen-Diskriminatornetz von pix2pixHD verwendet werden kann.
  • 3 ist ein Blockschaltplan/Ablaufplan einer beispielhaften Architektur für das Generatornetz aus 2 gemäß Ausführungsformen der vorliegenden Erfindung.
  • Das Generatornetz 204 enthält einen Codierer 325, der gemeinsam genutzte Merkmale zwischen der Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung von dem eingegebenen RS-unscharfen Bild 202 in einen kompakten Engpass extrahiert, und einen Decodierer 335, der den kompakten Engpass auf die ursprüngliche Eingangsbildgröße aufwärtsabtastet und die ausgegebenen vorhergesagten GS-scharfen Bilder 206 erzeugt. Die beispielhaften Ausführungsformen fügen zwischen den Schichten in dem Codierer 325 und in dem Decodierer 335 Überspringverbindungen 302 hinzu, um die gemeinsame Nutzung von Informationen zwischen dem Codierer 325 und dem Decodierer 335 zu ermöglichen. Mit Ausnahme der letzten Faltungsschicht 320, die eine Fenstergröße von 1 × 1 verwendet, verwenden alle Faltungsschichten 305 eine Fenstergröße von 3 × 3. Die Zahlen unter den Feldern stellen die Anzahlen von Kanälen dar. Die Abwärtsabtastung erfolgt durch ein 2 × 2-Maximal-Pooling mit dem Schritt 2. Aufwärtsfaltungsschichten enthalten eine Aufwärtsabtastung und 2 × 2-Faltung, die die Anzahl der Merkmalskanäle halbiert. Der Codierer 325 und der Decodierer 335 enthalten Faltungsschichten 305, Pooling-Schichten 310 und Aufwärtsfaltungsschichten 315.
  • 4 ist ein Blockschaltplan/Ablaufplan einer Anwendung des RS-Korrektur- und Scharfzeichnungsverfahrens auf die gleichzeitige Lokalisierung und Abbildung (SLAM) mit RS-unscharfen Videos gemäß Ausführungsformen der vorliegenden Erfindung.
  • In 4 ist die Anwendung des RS-Korrektur- und Scharfzeichnungsverfahrens auf SLAM mit RS-unscharfen Videos gezeigt. Ein eingegebenes RS-unscharfes Video 410 ist eine Menge aufeinanderfolgender Einzelbilder, die RS-Verzerrungen und Unschärfeartefakte aufweisen. Jedes Einzelbild wird daraufhin jeweils an das vorgeschlagene RS-Korrektur- und Scharfzeichnungsverfahren 420 (z. B. RS-Korrektur und Scharfzeichnung) übergeben, um RS-Verzerrungen und Unschärfeartefakte zu entfernen und das entsprechende RS-berichtigte und scharfgezeichnete Einzelbild 430 zu erhalten. Die RS-berichtigten und scharfgezeichneten Einzelbilder 430 werden daraufhin an ein SLAM-Modul 440 gesendet, um die Kameratrajektorie und Szenenstrukturen 450, die in dem Video beobachtet werden, zu schätzen.
  • 5 ist ein Blockschaltplan/Ablaufplan einer Anwendung des RS-Korrektur- und Scharfzeichnungsverfahrens auf Struktur aus Bewegung (SFM) mit RS-unscharfen Bildern gemäß Ausführungsformen der vorliegenden Erfindung.
  • In 5 ist die Anwendung des RS-Korrektur- und Scharfzeichnungsverfahrens auf SFM mit RS-unscharfen Bildern gezeigt. Als Eingabe für die SFM mit RS-unscharfen Bildern kann eine ungeordnete Menge von RS-unscharfen Bildern 510 wie etwa jene, die z. B. aus der Google-Bildsuche erhalten werden, verwendet werden. Daraufhin wird jedes Bild getrennt an das vorgeschlagene RS-Korrektur- und Scharfzeichnungsverfahren 520 (z. B. RS-Korrektur und Scharfzeichnung) übergeben, um RS-Verzerrungen und Unschärfeartefakte zu entfernen und das entsprechende RS-berichtigte und scharfgezeichnete Bild 530 zu erhalten. Daraufhin werden die RS-berichtigten und scharfgezeichneten Bilder 530 an das SFM-Modul 540 gesendet, um die in den Bildern beobachteten Kameraposen und Szenenstrukturen 550 zu schätzen.
  • 6 ist ein Blockschaltplan/Ablaufplan einer beispielhaften praktischen Anwendung des Struktur und Bewegung erkennenden Rolling-Shutter-Verzerrungs- (RS-Verzerrungs-) und Unschärfe-Rendering-Moduls und des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetzes gemäß Ausführungsformen der vorliegenden Erfindung.
  • Gemäß einer praktischen Anwendung nutzt ein Benutzer 602 eine Aufnahmevorrichtung 604 wie etwa eine Kamera, um ein Bild 606 aufzunehmen. Das Bild 606 kann unscharf sein und RS-Verzerrungen enthalten. Die CNN-Architektur 608 der vorliegenden Erfindung kann genutzt werden, um die Unschärfe- und RS-Effekte zu schätzen und aus dem aufgenommenen Bild 606 zu entfernen. Daraufhin ermöglicht die CNN-Architektur 608, dass an den Benutzer 602 ein scharfes Bild 610 ohne RS-Verzerrungen ausgegeben wird. Die beispielhaften Ausführungsformen der vorliegenden Erfindung führen hier eine durchgehende Lernvorgehensweise zum gemeinsamen Entfernen von RS-Verzerrungen und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild ein. Außerdem führt die vorliegende Erfindung eine Prozedur zum Synthetisieren realistischer RS- und unscharfer Bilder ein, die für das Training des Verfahrens verwendet werden kann. Schließlich zeigen die beispielhaften Ausführungsformen die Anwendungen der vorliegenden Erfindung auf Ziele von SFM mit RS-unscharfen Bildern sowie SLAM mit RS-unscharfen Videos. Die CNN-Architektur 608 lernt, gemeinsame Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung in einer einzelnen Vorwärtsrechnung auszuführen. Da die Aufgaben der Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung eng gekoppelt sind, kann das CNN 608 daraus, dass sie gleichzeitig in Angriff genommen werden, gemeinsam genutzte Merkmale und Vorteile extrahieren.
  • 7 ist ein Blockschaltplan/Ablaufplan eines beispielhaften Verarbeitungssystems für die RS-Korrektur und Scharfzeichnung gemäß Ausführungsformen der vorliegenden Erfindung.
  • Das Verarbeitungssystem enthält wenigstens einen Prozessor oder wenigstens eine Prozessorvorrichtung (CPU) 704, der bzw. die über einen Systembus 702 mit anderen Komponenten funktional gekoppelt ist. Mit dem Systembus 702 sind ein Cache 706, ein Nur-Lese-Speicher (ROM) 708, ein Schreib-Lese-Speicher (RAM) 710, ein Eingabe/Ausgabe-Adapter (E/A-Adapter) 720, ein Netzadapter 730, ein Benutzerschnittstellenadapter 740 und ein Anzeigeadapter 750 funktional gekoppelt. Mit dem Bus 702 können eine oder mehrere Kameras 760 verbunden sein. Die Kameras 760 können durch Nutzen eines Trainingsmoduls 150 und eines Testmoduls 160 ein Struktur und Bewegung erkennendes Rolling-Shutter-Verzerrungs- (RS-Verzerrungs-) und Unschärfe-Rendering-Modul und ein gemeinsames Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungsnetz 770 für die RS-Korrektur und Scharfzeichnung nutzen.
  • Mit dem Systembus 702 ist durch den E/A-Adapter 720 eine Ablagespeichervorrichtung 722 funktional gekoppelt. Die Speichervorrichtung 722 kann eine Plattenspeichervorrichtung (z. B. eine magnetische oder optische Plattenspeichervorrichtung), eine magnetische Festkörpervorrichtung usw. sein.
  • Mit dem Systembus 702 ist durch den Netzadapter 730 ein Transceiver 732 funktional gekoppelt.
  • Mit dem Systembus 702 sind durch den Benutzerschnittstellenadapter 740 Benutzereingabevorrichtungen 742 funktional gekoppelt. Die Benutzereingabevorrichtungen 742 können irgendwelche einer Tastatur, einer Maus, eines Tastenfelds, einer Bildaufnahmevorrichtung, einer Bewegungserfassungsvorrichtung, eines Mikrofons, einer Vorrichtung, die die Funktionalität wenigstens zweier der vorhergehenden Vorrichtungen enthält, usw. sein. Natürlich können ebenfalls andere Typen von Eingabevorrichtungen verwendet werden, während der Erfindungsgedanke der vorliegenden Erfindung aufrechterhalten wird. Die Benutzereingabevorrichtungen 742 können vom selben Typ einer Benutzereingabevorrichtung oder unterschiedliche Typen von Benutzereingabevorrichtungen sein. Die Benutzereingabevorrichtungen 742 werden zum Eingeben und Ausgeben von Informationen in das und aus dem Verarbeitungssystem verwendet.
  • Mit dem Systembus 702 ist durch den Anzeigeadapter 750 eine Anzeigevorrichtung 752 funktional gekoppelt.
  • Wie der Fachmann auf dem Gebiet leicht erwarten wird, kann das Verarbeitungssystem natürlich andere Elemente (nicht gezeigt) enthalten, und können ebenfalls bestimmte Elemente weggelassen sein. Wie der Durchschnittsfachmann auf dem Gebiet leicht versteht, können in dem System in Abhängigkeit von der bestimmten Implementierung desselben z. B. verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen enthalten sein. Zum Beispiel können verschiedene Typen drahtloser und/oder verdrahteter Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Wie der Durchschnittsfachmann auf dem Gebiet leicht versteht, können darüber hinaus zusätzliche Prozessoren, Prozessorvorrichtungen, Controller, Speicher usw. in verschiedenen Konfigurationen genutzt werden. Diese und andere Varianten des Verarbeitungssystems werden von dem Durchschnittsfachmann auf dem Gebiet angesichts der hier gegebenen Lehren der vorliegenden Erfindung leicht erwartet.
  • 8 ist ein Blockschaltplan/Ablaufplan eines beispielhaften Verfahrens für die RS-Korrektur und Scharfzeichnung gemäß Ausführungsformen der vorliegenden Erfindung.
  • Im Block 801 werden von einer Kamera mehrere RS-unscharfe Bilder erzeugt.
  • Im Block 803 werden RS-unscharfe Bilder aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen durch Nutzen eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls synthetisiert, um Trainingsdaten zu erzeugen, um ein gemeinsames neuronales Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetz (CNN) zu trainieren.
  • Im Block 805 wird durch Nutzen des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN aus dem einzelnen eingegebenen RS- und unscharfen Bild ein RS-berichtigtes und scharfgezeichnetes Bild vorhergesagt.
  • Wie sie verwendet sind, können die Begriffe „Daten“, „Inhalt“, „Informationen“ und ähnliche Begriffe austauschbar zur Bezugnahme auf Daten verwendet werden, die gemäß verschiedenen beispielhaften Ausführungsformen aufgenommen, gesendet, empfangen, angezeigt und/oder gespeichert werden können. Somit ist die Verwendung irgendwelcher derartiger Begriffe nicht als Beschränkung des Erfindungsgedankens und Schutzumfangs der Offenbarung zu nehmen. Ferner können die Daten, wo hier beschrieben ist, dass eine Computervorrichtung Daten von einer anderen Computervorrichtung empfängt, von der anderen Computervorrichtung direkt empfangen werden oder können sie über eine oder mehrere Zwischencomputervorrichtungen wie etwa z. B. einen oder mehrere Server, Zwischenverstärker, Router, Netzzugangspunkte, Basisstationen und/oder dergleichen indirekt empfangen werden. Ähnlich können die Daten, wo hier beschrieben ist, dass eine Computervorrichtung Daten an eine andere Computervorrichtung sendet, an die andere Computervorrichtung direkt gesendet werden oder können sie über eine oder mehrere Zwischencomputervorrichtungen wie etwa z. B. einen oder mehrere Server, Zwischenverstärker, Router, Netzzugangspunkte, Basisstationen und/oder dergleichen indirekt gesendet werden.
  • Um eine Interaktion mit einem Benutzer bereitzustellen, können Ausführungsformen des in dieser Patentschrift beschriebenen Gegenstands in einem Computer mit einer Anzeigevorrichtung, z. B. einem CRT-Monitor (Katodenstrahlröhrenmonitor) oder LCD-Monitor (Flüssigkristallanzeigemonitor) zum Anzeigen von Informationen für den Benutzer und mit einer Tastatur und mit einer Zeigevorrichtung, z. B. einer Maus oder einem Trackball, durch die der Benutzer eine Eingabe für den Computer bereitstellen kann, implementiert werden. Um eine Interaktion mit einem Benutzer bereitzustellen, können ebenfalls andere Arten von Vorrichtungen verwendet werden; z. B. kann eine für den Benutzer bereitgestellte Rückkopplung irgendeine Form einer sensorischen Rückkopplung, z. B. einer visuellen Rückkopplung, einer hörbaren Rückkopplung oder einer Tastrückkopplung, sein; und kann die Eingabe von dem Benutzer in irgendeiner Form, einschließlich einer akustischen Eingabe, einer Spracheingabe oder einer Tasteingabe, empfangen werden.
  • Wie der Fachmann auf dem Gebiet würdigen wird, können Aspekte der vorliegenden Erfindung als ein System, als ein Verfahren oder als ein Computerprogrammprodukt verkörpert werden. Dementsprechend können Aspekte der vorliegenden Erfindung die Form einer vollständigen Hardwareausführungsform, einer vollständigen Softwareausführungsform (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Ausführungsform, die Software- und Hardwareaspekte kombiniert, die hier alle allgemein als eine „Schaltung“, als ein „Modul“, als eine „Recheneinrichtung“, als eine „Vorrichtung“ oder als ein „System“ bezeichnet sein können, annehmen. Darüber hinaus können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien, in denen computerlesbarer Programmcode verkörpert ist, annehmen.
  • Es kann irgendeine Kombination eines oder mehrerer computerlesbarer Medien genutzt werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Ablagespeichermedium sein. Ein computerlesbares Ablagespeichermedium kann z. B. ein elektronisches, ein magnetisches, ein optisches, ein elektromagnetisches, ein Infrarot- oder ein Halbleitersystem, ein elektronisches, ein magnetisches, ein optisches, ein elektromagnetisches, ein Infrarot- oder ein Halbleitergerät oder eine elektronische, eine magnetische, eine optische, eine elektromagnetische, eine Infrarot- oder eine Halbleitervorrichtung oder irgendeine geeignete Kombination der Vorstehenden, darauf aber nicht beschränkt, sein. Spezifischere Beispiele (eine nicht erschöpfende Liste) des computerlesbaren Ablagespeichermediums würden die Folgenden enthalten: eine elektrische Verbindung mit einem oder mehreren Drähten, eine tragbare Computerdiskette, eine Festplatte, einen Schreib-Lese-Speicher (RAM), einen Nur-Lese-Speicher (ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM oder Flash-Speicher), eine optische Faser, einen tragbaren Kompakt-Disk-Nur-Lese-Speicher (CD-ROM), eine optische Datenablagespeichervorrichtung, eine magnetische Datenablagespeichervorrichtung oder irgendeine geeignete Kombination der Vorstehenden. In dem Kontext dieses Dokuments kann ein computerlesbares Ablagespeichermedium irgendein konkretes Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem Anweisungsausführungssystem, einem Anweisungsausführungsgerät oder einer Anweisungsausführungsvorrichtung enthalten oder speichern kann.
  • Ein computerlesbares Signalmedium kann ein fortgepflanztes Datensignal mit einem darin verkörperten computerlesbaren Programmcode, z. B. im Basisband oder als Teil einer Trägerwelle, enthalten. Ein derartiges fortgepflanztes Signal kann irgendeine eine Vielzahl von Formen, einschließlich, aber nicht beschränkt auf, elektromagnetische, optische oder irgendeine geeignete Kombination davon, annehmen. Ein computerlesbares Signalmedium kann irgendein computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem Anweisungsausführungssystem, einem Anweisungsausführungsgerät oder einer Anweisungsausführungsvorrichtung übermitteln, fortpflanzen oder transportieren kann.
  • Programmcode, der in einem computerlesbaren Medium verkörpert ist, kann unter Verwendung irgendeines geeigneten Mediums, einschließlich, aber nicht beschränkt auf, drahtlos, über Festnetz, optisches Faserkabel, HF usw. oder irgendeine geeignete Kombination der Vorstehenden übertragen werden.
  • Computerprogrammcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in irgendeiner Kombination einer oder mehrerer Programmiersprachen, einschließlich einer objektorientierten Programmiersprache wie etwa Java, Smalltalk, C++ oder dergleichen und herkömmlichen prozeduralen Programmiersprachen wie etwa der Programmiersprache „C“ oder ähnlichen Programmiersprachen, geschrieben sein. Der Programmcode kann vollständig in dem Computer des Benutzers, teilweise in dem Computer des Benutzers, als selbstständiges Softwarepaket, teilweise in dem Computer des Benutzers und teilweise in einem fernen Computer oder vollständig in dem fernen Computer oder Server ausgeführt werden. In dem letzteren Szenarium kann der ferne Computer über irgendeinen Typ eines Netzes, einschließlich eines lokalen Netzes (LAN) oder eines Weitverkehrsnetzes (WAN), mit dem Computer des Benutzers verbunden sein oder kann die Verbindung mit einem externen Computer (z. B. unter Verwendung eines Internetdienstanbieters über das Internet) hergestellt sein.
  • Im Folgenden sind Aspekte der vorliegenden Erfindung mit Bezug auf Ablaufplandarstellungen und/oder Blockschaltpläne von Verfahren, Geräten (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der vorliegenden Erfindung beschrieben. Selbstverständlich kann jeder Block der Ablaufplandarstellungen und/oder können Blockschaltpläne und Kombinationen von Blöcken in den Ablaufplandarstellungen und/oder Blockschaltplänen durch Computerprogrammanweisungen implementiert werden. Diese Computerprogrammanweisungen können für einen Prozessor eines Universalcomputers, eines Spezialcomputers oder eines anderen programmierbaren Datenverarbeitungsgeräts bereitgestellt werden, um eine Maschine derart herzustellen, dass die Anweisungen, die über den Prozessor des Computers oder des anderen programmierbaren Datenverarbeitungsgeräts ausgeführt werden, Mittel zum Implementieren der in dem Ablaufplan und/oder in dem Blockschaltplanblock oder in den Blockschaltplanblöcken oder Blockschaltplanmodulen spezifizierten Funktionen/Tätigkeiten erzeugen.
  • Diese Computerprogrammanweisungen können ebenfalls in einem computerlesbaren Medium gespeichert sein, das einen Computer, ein anderes programmierbares Datenverarbeitungsgerät oder andere Vorrichtungen anweisen kann, in besonderer Weise derart zu fungieren, dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel herstellen, der Anweisungen enthält, die die in dem Ablaufplan und/oder in dem Blockschaltplanblock oder in den Blockschaltplanblöcken oder Blockschaltplanmodulen spezifizierte Funktion/Tätigkeit implementieren.
  • Die Computerprogrammanweisungen können ebenfalls in einen Computer, in ein anderes programmierbares Datenverarbeitungsgerät oder in andere Vorrichtungen geladen werden, um zu veranlassen, dass in dem Computer, in dem anderen programmierbaren Gerät oder in den anderen Vorrichtungen eine Reihe von Betriebsschritten ausgeführt werden, um einen computerimplementierten Prozess derart herzustellen, dass die Anweisungen, die in dem Computer oder in dem anderen programmierbaren Gerät ausgeführt werden, Prozesse zum Implementieren der in dem Ablaufplan und/oder in dem Blockschaltplanblock oder in den Blockschaltplanblöcken oder Blockschaltplanmodulen spezifizierten Funktionen/Tätigkeiten bereitstellen.
  • Es wird gewürdigt werden, dass der Begriff „Prozessor“, wie er hier verwendet ist, irgendeine Verarbeitungsvorrichtung wie etwa z. B. eine, die eine CPU (Zentraleinheit) und/oder eine andere Verarbeitungsschaltungsanordnung enthält, enthalten soll. Außerdem kann sich der Begriff „Prozessor“ selbstverständlich auf mehr als eine Verarbeitungsvorrichtung beziehen und können diese verschiedenen Elemente, die einer Verarbeitungsvorrichtung zugeordnet sind, durch andere Verarbeitungsvorrichtungen gemeinsam genutzt werden.
  • Der Begriff „Speicher“, wie er hier verwendet ist, soll Speicher, der einem Prozessor oder einer CPU zugeordnet ist, wie etwa z. B. RAM, ROM, eine Festspeichervorrichtung (z. B. ein Festplattenlaufwerk), eine Wechselspeichervorrichtung (z. B. eine Diskette), Flash-Speicher usw. enthalten. Ein derartiger Speicher kann als ein computerlesbares Ablagespeichermedium angesehen werden.
  • Außerdem soll die Formulierung „Eingabe/Ausgabe-Vorrichtungen“ oder „E/A-Vorrichtungen“, wie sie hier verwendet ist, z. B. eine oder mehrere Eingabevorrichtungen (z. B. Tastatur, Maus, Scanner usw.) zum Eingeben von Daten in die Verarbeitungseinheit und/oder eine oder mehrere Ausgabevorrichtungen (z. B. Lautsprecher, Anzeige, Drucker usw.) zum Darstellen von der Verarbeitungseinheit zugeordneten Ergebnissen enthalten.
  • Das Vorstehende ist in jeder Hinsicht so zu verstehen, dass es veranschaulichend und beispielhaft, aber nicht beschränkend ist, und der Schutzumfang der hier offenbarten Erfindung ist nicht aus der ausführlichen Beschreibung, sondern vielmehr aus den Ansprüchen, wie sie gemäß den durch die Patentgesetze zulässigen vollen Umfang interpretiert werden, zu bestimmen. Selbstverständlich sind die hier gezeigten und beschriebenen Ausführungsformen nur veranschaulichend für die Prinzipien der vorliegenden Erfindung und kann der Fachmann auf dem Gebiet verschiedene Änderungen implementieren, ohne von dem Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Der Fachmann auf dem Gebiet könnte verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und Erfindungsgedanken der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den Einzelheiten und insbesondere wie durch die Patentgesetze gefordert beschrieben worden sind, ist in den beigefügten Ansprüchen dargelegt, was durch das Patent beansprucht und geschützt werden soll.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62/939016 [0001]
    • US 17/090508 [0001]

Claims (20)

  1. Computerimplementiertes Verfahren, das in einem Prozessor ausgeführt wird, um Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakte in einem einzelnen eingegebenen RS- und unscharfen Bild gemeinsam zu entfernen, wobei das Verfahren umfasst: Erzeugen (801) mehrerer RS-unscharfer Bilder von einer Kamera; Synthetisieren (803) RS-unscharfer Bilder aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen durch Nutzen eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls zum Erzeugen von Trainingsdaten zum Trainieren eines gemeinsamen neuronalen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetzes (CNN); und Vorhersagen (805) eines RS-berichtigten und scharfgezeichneten Bilds aus dem einzelnen eingegebenen RS- und unscharfen Bild durch Nutzen des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN.
  2. Verfahren nach Anspruch 1, wobei die gemeinsame Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung in einer einzelnen Vorwärtsrechnung ausgeführt wird.
  3. Verfahren nach Anspruch 1, das ferner während einer Trainingsphase das Nutzen des Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls mit der Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und der synthetisierten RS-Kamerabewegungen zum Erzeugen synthetisierter RS-unscharfer Bilder zum Trainieren des gemeinsamen neuronalen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetzes (CNN) umfasst.
  4. Verfahren nach Anspruch 1, das ferner während einer Testphase das Bereitstellen des einzelnen RS- und unscharfen Bilds für das gemeinsame Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN zum Herstellen entsprechender RS-berichtigter und scharfgezeichneter Bilder in einer einzelnen Vorwärtsrechnung umfasst.
  5. Verfahren nach Anspruch 3, wobei ein Generatornetz entsprechende GS-scharfe Bilder vorhersagt.
  6. Verfahren nach Anspruch 3, wobei ein Diskriminatornetz entweder ein vorhergesagtes GS-scharfes Bild oder ein Ground-Truth-GS-scharfes Bild nimmt, um ein derartiges Bild entweder als „echt“ oder als „unecht“ zu klassifizieren.
  7. Verfahren nach Anspruch 6, wobei das Generatornetz und das Diskriminatornetz über einen kontradiktorischen Verlust gemeinsam trainiert werden.
  8. Verfahren nach Anspruch 7, wobei ein Wahrnehmungsverlust hinzugefügt wird, um Differenzen zwischen Aktivierungen unterschiedlicher Schichten eines Netzes der Visual Geometry Group (VGG) zu minimieren.
  9. Verfahren nach Anspruch 7, wobei das Generatornetz einen Codierer und einen Decodierer enthält, wobei der Codierer gemeinsam genutzte Merkmale zwischen der Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung von dem einzeln eingegebenen RS- und unscharfen Bild in einen kompakten Engpass extrahiert und wobei der Decodierer den kompakten Engpass auf eine ursprüngliche Größe des eingegebenen Bilds aufwärtsabtastet.
  10. Nichttransitorisches computerlesbares Ablagespeichermedium, das ein computerlesbares Programm zum gemeinsamen Entfernen von Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild umfasst, wobei das computerlesbare Programm, wenn es in einem Computer ausgeführt wird, veranlasst, dass der Computer die folgenden Schritte ausführt: Erzeugen (801) mehrerer RS-unscharfer Bilder von einer Kamera; Synthetisieren (803) RS-unscharfer Bilder aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen durch Nutzen eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls zum Erzeugen von Trainingsdaten zum Trainieren eines gemeinsamen neuronalen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetzes (CNN); und Vorhersagen (805) eines RS-berichtigten und scharfgezeichneten Bilds aus dem einzelnen eingegebenen RS- und unscharfen Bild durch Nutzen des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN.
  11. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 10, wobei die gemeinsame Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung in einer einzelnen Vorwärtsrechnung ausgeführt wird.
  12. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 10, wobei während einer Trainingsphase durch das Struktur und Bewegung erkennende RS-Verzerrungs- und Unschärfe-Rendering-Modul eine Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen genutzt werden, um synthetisierte RS-unscharfe Bilder zum Trainieren des gemeinsamen neuronalen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetzes (CNN) zu erzeugen.
  13. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 10, wobei während einer Testphase das einzelne RS- und unscharfe Bild für das gemeinsame Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN bereitgestellt wird, um in einer einzelnen Vorwärtsrechnung entsprechende RS-berichtigte und scharfgezeichnete Bilder zu erzeugen.
  14. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 12, wobei ein Generatornetz entsprechende GS-scharfe Bilder vorhersagt.
  15. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 12, wobei ein Diskriminatornetz entweder ein vorhergesagtes GS-scharfes Bild oder ein Ground-Truth-GS-scharfes Bild nimmt, um ein derartiges Bild entweder als „echt“ oder als „unecht“ zu klassifizieren.
  16. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 15, wobei das Generatornetz und das Diskriminatornetz über einen kontradiktorischen Verlust gemeinsam trainiert werden.
  17. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 16, wobei ein Wahrnehmungsverlust hinzugefügt wird, um Differenzen zwischen Aktivierungen unterschiedlicher Schichten eines Netzes der Visual Geometry Group (VGG) zu minimieren.
  18. Nichttransitorisches computerlesbares Ablagespeichermedium nach Anspruch 16, wobei das Generatornetz einen Codierer und einen Decodierer enthält, wobei der Codierer gemeinsam genutzte Merkmale zwischen der Einzelansichts-RS-Korrektur und Einzelansichts-Scharfzeichnung von dem einzeln eingegebenen RS- und unscharfen Bild in einen kompakten Engpass extrahiert und wobei der Decodierer den kompakten Engpass auf eine ursprüngliche Größe des eingegebenen Bilds aufwärtsabtastet.
  19. System zum gemeinsamen Entfernen von Rolling-Shutter-Verzerrungen (RS-Verzerrungen) und Unschärfeartefakten in einem einzelnen eingegebenen RS- und unscharfen Bild, wobei das System umfasst: einen Speicher; und einen oder mehrere Prozessoren in Kommunikation mit dem Speicher, wobei der eine oder die mehreren Prozessoren konfiguriert sind zum: Erzeugen (801) mehrerer RS-unscharfer Bilder von einer Kamera; Synthetisieren (803) RS-unscharfer Bilder aus einer Menge GS-scharfer Bilder, entsprechender GS-scharfer Tiefenkarten und synthetisierter RS-Kamerabewegungen durch Nutzen eines Struktur und Bewegung erkennenden RS-Verzerrungs- und Unschärfe-Rendering-Moduls zum Erzeugen von Trainingsdaten zum Trainieren eines gemeinsamen neuronalen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-Faltungsnetzes (CNN); und Vorhersagen (805) eines RS-berichtigten und scharfgezeichneten Bilds aus dem einzelnen eingegebenen RS- und unscharfen Bild durch Nutzen des gemeinsamen Einzelansichts-RS-Korrektur- und Einzelansichts-Scharfzeichnungs-CNN.
  20. System nach Anspruch 19, wobei ein Generatornetz entsprechende GS-scharfe Bilder vorhersagt und ein Diskriminatornetz entweder ein vorhergesagtes GS-scharfes Bild oder ein Ground-Truth-GS-scharfes Bild nimmt, um ein derartiges Bild entweder als „echt“ oder als „unecht“ zu klassifizieren, wobei das Generatornetz und das Diskriminatornetz über einen kontradiktorischen Verlust gemeinsam trainiert werden, und wobei ein Wahrnehmungsverlust hinzugefügt wird, um Differenzen zwischen Aktivierungen unterschiedlicher Schichten eines Netzes der Visual Geometry Group (VGG) zu minimieren.
DE112020005730.5T 2019-11-22 2020-11-06 Gemeinsame Rolling-Shutter-Korrektur und Bildscharfzeichnung Pending DE112020005730T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962939016P 2019-11-22 2019-11-22
US62/939,016 2019-11-22
US17/090,508 2020-11-05
US17/090,508 US11599974B2 (en) 2019-11-22 2020-11-05 Joint rolling shutter correction and image deblurring
PCT/US2020/059398 WO2021101732A1 (en) 2019-11-22 2020-11-06 Joint rolling shutter correction and image deblurring

Publications (1)

Publication Number Publication Date
DE112020005730T5 true DE112020005730T5 (de) 2022-09-15

Family

ID=75974974

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020005730.5T Pending DE112020005730T5 (de) 2019-11-22 2020-11-06 Gemeinsame Rolling-Shutter-Korrektur und Bildscharfzeichnung

Country Status (4)

Country Link
US (1) US11599974B2 (de)
JP (1) JP7357150B2 (de)
DE (1) DE112020005730T5 (de)
WO (1) WO2021101732A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240233313A1 (en) * 2021-10-28 2024-07-11 Boe Technology Group Co., Ltd. Model training method, image processing method, computing and processing device and non-transient computer-readable medium
AT526018A2 (de) * 2022-03-29 2023-10-15 Vexcel Imaging Gmbh Verfahren zur Bildkorrektur von Bildunschärfe in einer digitalen Bildaufnahme
CN115115552B (zh) * 2022-08-25 2022-11-18 腾讯科技(深圳)有限公司 图像矫正模型训练及图像矫正方法、装置和计算机设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100514B2 (en) * 2009-10-28 2015-08-04 The Trustees Of Columbia University In The City Of New York Methods and systems for coded rolling shutter
US8866927B2 (en) * 2012-12-13 2014-10-21 Google Inc. Determining an image capture payload burst structure based on a metering image capture sweep
US8995784B2 (en) * 2013-01-17 2015-03-31 Google Inc. Structure descriptors for image processing
US9374532B2 (en) * 2013-03-15 2016-06-21 Google Inc. Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization
FR3013487B1 (fr) * 2013-11-18 2017-04-21 Univ De Nice (Uns) Procede d'estimation de la vitesse de deplacement d'une camera
EP3117597A1 (de) * 2014-03-12 2017-01-18 Sony Corporation Verfahren, system und computerprogrammprodukt zur enttrübung von bildern
US9652833B2 (en) * 2014-03-18 2017-05-16 Honeywell International, Inc. Point spread function estimation for motion invariant images
EP3241179B1 (de) * 2014-12-29 2020-11-18 Nokia Corporation Verfahren, vorrichtung und computerprogrammprodukt zur bewegungsschärfung von bildern
KR101810956B1 (ko) * 2016-06-08 2017-12-26 엠텍비젼 주식회사 롤링 셔터 구동 방식의 이미지 센서를 구비한 촬상 장치 및 그 조명 제어 방법
WO2018053340A1 (en) * 2016-09-15 2018-03-22 Twitter, Inc. Super resolution using a generative adversarial network
US10607319B2 (en) 2017-04-06 2020-03-31 Pixar Denoising monte carlo renderings using progressive neural networks
KR20190064882A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 딥러닝 기반 차량용 영상 처리 방법
US10878529B2 (en) * 2017-12-22 2020-12-29 Canon Medical Systems Corporation Registration method and apparatus
US20190385283A1 (en) * 2018-06-18 2019-12-19 Honeywell International Inc. Image pre-processing for object recognition
JP7346076B2 (ja) * 2019-05-14 2023-09-19 キヤノン株式会社 制御装置、レンズ装置、撮像装置、制御方法、および、プログラム

Also Published As

Publication number Publication date
JP7357150B2 (ja) 2023-10-05
WO2021101732A1 (en) 2021-05-27
JP2022547594A (ja) 2022-11-14
US20210158490A1 (en) 2021-05-27
US11599974B2 (en) 2023-03-07

Similar Documents

Publication Publication Date Title
DE112020005730T5 (de) Gemeinsame Rolling-Shutter-Korrektur und Bildscharfzeichnung
CN110969589B (zh) 基于多流注意对抗网络的动态场景模糊图像盲复原方法
DE102020201787A1 (de) Erzeugen von blickkorrigierten bildern unter verwendung eines bidirektional trainierten netzwerks
DE102020131265A1 (de) Segmentieren von video-rahmen unter verwendung eines neuronalen netzes mit verringerter auflösung und von masken aus vorhergehenden rahmen
DE102020002964A1 (de) Verwenden eines neuronalen Netzwerks mit einer Zwei-Strom Encoder-Architektur zur Erzeugung digitaler Kompositbilder
DE112020002472T5 (de) Bild-/Videoschärfen unter Verwendung von neuronalen Faltungsnetzen mit Anwendungen für SFM/SLAM mit unscharfen Bildern/Videos
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE102021118479A1 (de) Einbetten von komplexen 3d-objekten in eine erweiterte realitätsszene unter verwendung einer bildsegmentierung
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102018130821A1 (de) Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs durch ein künstliches neuronales Netz mit einer Aggregationseinheit; Steuereinheit, Fahrerassistenzsystem sowie Computerprogrammprodukt
DE112018002793T5 (de) Bildverarbeitungssystem und bildverarbeitungsverfahren
DE102008034979A1 (de) Verfahren und Einrichtung zur Erzeugung von fehlerreduzierten hochauflösenden und kontrastverbesserten Bildern
DE102016208056A1 (de) Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug
DE112018007431T5 (de) Verfahren zur verbesserten bildgebung auf basis von semantischer verarbeitung und dynamischer szenenmodellierung
DE112016004109T5 (de) Echtzeit-mehrfach-fahrzeugdetektion und -tracking
DE102007048857A1 (de) Verfahren zur Erzeugung und/oder Aktualisierung von Texturen von Hintergrundobjektmodellen, Videoüberwachungssystem zur Durchführung des Verfahrens sowie Computerprogramm
DE202016007867U1 (de) Steuerung des Sichtlinienwinkels einer Bildverarbeitungsplattform
DE102016225066A1 (de) Rundumsichtsystem für ein Fahrzeug
DE102014217422A1 (de) Verfahren zum Steuern eines Datenflusses eines Spiegel-Verbindungsabschnittsystems
DE102022214330A1 (de) Verfahren zur Erzeugung mindestens einer Ground Truth aus der Vogelperspektive
DE102017208994A1 (de) Verfahren zur Ermittlung von Ergebnisbilddaten
DE102011007644A1 (de) Verfahren und Vorrichtung zur Bestimmung von zur Entzerrung eines Bildes geeigneten Werten und zur Entzerrung eines Bildes
DE102017104957A1 (de) Verfahren zum Bestimmen einer Bewegung von zueinander korrespondierenden Bildpunkten in einer Bildsequenz aus einem Umgebungsbereich eines Kraftfahrzeugs, Auswerteeinrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
DE102021100205A1 (de) Systeme und verfahren zum verringern von speicheranforderungen in neuronalen netzen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: H04N0005232000

Ipc: H04N0023600000