DE112017002799T5 - Verfahren und system zum generieren multimodaler digitaler bilder - Google Patents

Verfahren und system zum generieren multimodaler digitaler bilder Download PDF

Info

Publication number
DE112017002799T5
DE112017002799T5 DE112017002799.3T DE112017002799T DE112017002799T5 DE 112017002799 T5 DE112017002799 T5 DE 112017002799T5 DE 112017002799 T DE112017002799 T DE 112017002799T DE 112017002799 T5 DE112017002799 T5 DE 112017002799T5
Authority
DE
Germany
Prior art keywords
neural network
digital image
modality
parameters
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112017002799.3T
Other languages
English (en)
Other versions
DE112017002799B4 (de
Inventor
Ming-Yu Liu
Oncel Tuzel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112017002799T5 publication Critical patent/DE112017002799T5/de
Application granted granted Critical
Publication of DE112017002799B4 publication Critical patent/DE112017002799B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Ein computerimplementiertes Verfahren generiert ein multimodales digitales Bild durch Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, um eine erste Modalität des digitalen Bildes zu erzeugen, und Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, um eine zweite Modalität des digitalen Bildes zu erzeugen. Eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks sind identisch mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks. Außerdem weist zumindest eine Schicht in dem ersten neuronalen Netzwerk Parameter auf, die mit Parametern einer korrespondierenden Schicht in dem zweiten neuronalen Netzwerk identisch sind, und zumindest eine Schicht in dem ersten neuronalen Netzwerk weist Parameter auf, die sich von Parametern einer korrespondierenden Schicht in dem zweiten neuronalen Netzwerk unterscheiden.

Description

  • [Technisches Gebiet]
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Bildsynthese und insbesondere auf Generieren multimodaler digitaler Bilder unter Verwendung von neuronalen Netzwerken.
  • [Hintergrund zum Stand der Technik]
  • Die Paarbildgenerierung bezieht sich auf das Generieren eines Paares von korrespondierenden Bildern in zwei verschiedenen Modalitäten, wie beispielsweise einem Gesicht mit unterschiedlichen Attributen, einem Zeichen in verschiedenen Schriftarten oder einem Farbbild und dem korrespondierenden Tiefenbild. Die multimodale Bildgenerierung bezieht sich auf das Generieren eines Paares oder mehrerer korrespondierender Bilder verschiedener Modalitäten. Die Generierung multimodaler Bilder hat ein breites Anwendungsspektrum. So können beispielsweise die multimodalen Bilder verwendet werden, um neue Paare von korrespondierenden Bildern für Filme und Computerspiele zu rendern. Ein in der US 7,876,320 beschriebenes Verfahren synthetisiert beispielsweise zwei oder mehr Gesichtsbilder, oder zumindest ein Gesichtsbild und eine Gesichtsgrafik oder eine Gesichtsanimation, um dadurch ein fiktives Gesichtsbild zu erzeugen.
  • Eine Reihe von Verfahren verwenden Eins-zu-Eins-Korrespondenzen zwischen Bildern in verschiedenen Modalitäten, um ein multimodales digitales Bild zu generieren. Beispiele für diese Verfahren sind ein tiefes multimodales Boltzmann-Verfahren und ein gekoppeltes Wörterbuch-Lernverfahren. Einige Verfahren können physikalische Modelle verwenden, um korrespondierende Bilder in den zwei verschiedenen Modalitäten, wie Bildsuperauflösung oder Bildunschärfebeseitigung, zu erzeugen. Im Allgemeinen ist es jedoch schwierig, die Eins-zu-Eins-Korrespondenzen zwischen Bildern in verschiedenen Modalitäten zu bestimmen.
  • Dementsprechend besteht ein Bedarf, ein multimodales digitales Bild zu generieren, ohne die Eins-zu-Eins-Korrespondenz zwischen verschiedenen Modalitäten in den Trainingsdaten zugrundezulegen.
  • [Zusammenfassung der Erfindung]
  • Einige Ausführungsformen der Erfindung stellen eine Reihe von neuronalen Netzwerken bereit, die gemeinsam trainiert wurden, um verschiedene Modalitäten eines digitalen Bildes zu erzeugen. Zum Beispiel stellt eine Ausführungsform eine Reihe von neuronalen Netzwerken bereit, die eine Gruppe von korrespondierenden Bildern in verschiedenen Modalitäten rendern können, ohne dass eine Eins-zu-Eins-Korrespondenz zwischen verschiedenen Modalitäten des digitalen Bildes vorhanden ist.
  • Einige Ausführungsformen basieren auf der Erkenntnis, dass, wenn neuronale Netzwerke unabhängig voneinander trainiert werden, um ein digitales Bild zu generieren, die generierten digitalen Bilder zueinander nicht in Beziehung stehen. Durch Auferlegen, z.B. während des gemeinsamen Trainings, einer Gewichtungsteilungs-Randbedingung auf die neuronalen Netzwerke, können die neuronalen Netzwerke jedoch trainiert werden, um ein multimodales digitales Bild zu generieren. So erzeugt beispielsweise eine Ausführungsform ein multimodales digitales Bild unter Verwendung eines ersten neuronalen Netzwerks, das trainiert ist, eine erste Modalität des digitalen Bildes zu generieren, und eines zweiten neuronalen Netzwerks, das trainiert ist, eine zweite Modalität des digitalen Bildes zu generieren. Die Struktur und Anzahl der Schichten des ersten neuronalen Netzwerks ist identisch mit der Struktur und Anzahl der Schichten des zweiten neuronalen Netzwerks. Außerdem weist zumindest eine Schicht im ersten neuronalen Netzwerk Parameter auf, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und zumindest eine Schicht im ersten neuronalen Netzwerk weist Parameter auf, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden.
  • Auf diese Weise erzwingen die identische Struktur sowie die Anzahl und der identische Wert einiger Parameter der neuronalen Netzwerke eine gewisse Gemeinsamkeit in den generierten digitalen Bildern, während die unterschiedlichen Werte anderer Parameter der neuronalen Netzwerke die Unterschiede in den Modalitäten erzwingen. Zum Beispiel haben einige Schichten des ersten und des zweiten neuronalen Netzwerks in einer Ausführungsform identische Parameter, um übergeordnete Merkmale des digitalen Bildes zu generieren, während die anderen Schichten des ersten und des zweiten neuronalen Netzwerks unterschiedliche Parameter aufweisen, um untergeordnete Merkmale des digitalen Bildes zu generieren. Typischerweise werden die untergeordneten Merkmale von den übergeordneten Merkmalen abgeleitet. So können beispielsweise die übergeordneten Merkmale eine Beschreibung der Typen und Konfigurationen der Objekte im Bild sein, und die untergeordneten Merkmale können Kanten der Objekte sein, die basierend auf den Typen und Konfigurationen der Objekte bestimmt wurden.
  • Dementsprechend offenbart eine Ausführungsform ein computerimplementiertes Verfahren zum Generieren eines multimodalen digitalen Bildes. Das Verfahren umfasst das Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, um eine erste Modalität des digitalen Bildes zu generieren; und das Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, um eine zweite Modalität des digitalen Bildes zu generieren, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch ist mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks sind, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die identisch sind mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden. Die Schritte des Verfahrens werden unter Verwendung eines Prozessors durchgeführt.
  • Eine weitere Ausführungsform offenbart ein System zum Generieren eines multimodalen digitalen Bildes, aufweisend zumindest einen nichtflüchtigen computerlesbaren Speicher, der ein erstes neuronales Netzwerk speichert, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und ein zweites neuronales Netzwerk speichert, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch sind mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden; und einen Prozessor zum Generieren des multimodalen digitalen Bildes durch Verarbeiten eines Vektors mit dem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und Verarbeiten des Vektors mit dem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, und das multimodalen digitale Bild im Speicher zu speichern.
  • Noch eine weitere Ausführungsform offenbart ein nichtflüchtiges computerlesbares Medium mit darauf gespeicherten Anweisungen, die bei Ausführung durch einen Prozessor die Schritte durchführen, umfassend Verarbeitung eines Vektors mit einem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen; und Verarbeitung des Vektors mit einem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch sind mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden.
  • Figurenliste
    • 1 ist ein Blockdiagramm eines Computersystems zum Generieren eines multimodalen digitalen Bildes gemäß einigen Ausführungsformen der Erfindung.
    • 2A ist ein Blockdiagramm eines computerimplementierten Verfahrens zum Generieren eines multimodalen digitalen Bildes gemäß einer Ausführungsform.
    • 2B ist eine exemplarische schematische Darstellung der Struktur der neuronalen Netzwerke zur Generierung multimodaler digitaler Bilder gemäß einer Ausführungsform der Erfindung.
    • 3 ist ein Blockdiagramm eines neuronalen Netzwerks, das von einigen Ausführungsformen verwendet wird.
    • 4A ist eine schematische Darstellung eines gekoppelten generativen gegnerischen Netzwerk-(CoGAN)-Rahmens gemäß einigen Ausführungsformen.
    • 4B ist ein Beispiel für die Gewichtsteilungs-Randbedingungen im CoGAN, die durch einige Ausführungsformen auferlegt werden.
    • 5A ist eine schematische Darstellung des Trainings neuronaler Netzwerke, das von einigen Ausführungsformen verwendet wird.
    • 5B ist ein Pseudocode des Trainings neuronaler Netzwerke gemäß einer Ausführungsform.
    • 5C ist ein Blockdiagramm eines Trainingssystems gemäß einer Ausführungsform.
    • 6A ist ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler digitaler Bilder von handgeschriebenen Ziffern gemäß einer Ausführungsform.
    • 6B ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 6A generiert werden.
    • 6C ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 6A generiert werden.
    • 7A ist ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler Gesichtsbilder mit unterschiedlichen Attributen gemäß einer Ausführungsform.
    • 7B ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 7A generiert werden.
    • 7C ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 7A generiert werden.
    • 7D ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 7A generiert werden.
    • 8A ist ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler digitaler Bilder, umfassend Farbbilder und ihre korrespondierenden Tiefenbilder gemäß einer Ausführungsform.
    • 8B ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 8A generiert werden.
    • 9 ist ein Beispiel für eine Modalitätentransformation gemäß einigen Ausführungsformen.
  • [Beschreibung der Ausführungsformen]
  • 1 zeigt ein Blockdiagramm eines Computersystems 100 zum Generieren eines multimodalen digitalen Bildes gemäß einigen Ausführungsformen der Erfindung. Wie hierin verwendet, sind das multimodale digitale Bild strukturelle digitale Daten mit unterschiedlichen Modalitäten. So kann beispielsweise das multimodale digitale Bild ein erstes Bild mit einer ersten Modalität und ein zweites Bild mit einer zweiten Modalität umfassen. Verschiedene Modalitäten können verschiedene Stile oder Typen von Daten repräsentieren, die das digitale Bild bilden. Beispiele für verschiedene digitale Bilder mit unterschiedlichen Modalitäten sind Farbbilder, Tiefenbilder und Wärmebilder. In einigen Ausführungsformen sind das digitale Bild strukturelle digitale Daten von einem Format oder einer Kombination verschiedener Formate. So kann beispielsweise das digitale Bild eines oder eine Kombination aus einem Bild, einem Video, einem Text und einem Ton umfassen.
  • Die unterschiedlichen Modalitäten des digitalen Bildes bilden in der Regel unterschiedliche Bilder unterschiedlicher Typen, die gleiche oder zumindest ähnliche Strukturinformationen darstellen. Zu diesem Zweck werden die Bilder verschiedener Modalitäten, die das multimodale digitale Bild bilden, miteinander in Beziehung gesetzt. So kann beispielsweise die erste Modalität des digitalen Bildes ein erstes Bild eines in einem Stil dargestellten Textes sein, und die zweite Modalität des digitalen Bildes kann ein zweites Bild des gleichen Textes sein, das jedoch in einem anderen Stil dargestellt wird. So kann beispielsweise die erste Modalität des digitalen Bildes ein erstes Bild eines Gesichts einer eine Brille tragenden Person sein, und die zweite Modalität des digitalen Bildes kann ein zweites Bild des gleichen Gesichts der Person sein, die die Brille nicht trägt. So kann beispielsweise die erste Modalität des digitalen Bildes ein Bild sein, das Farbinformationen für jedes Pixel enthält, um eine Szene darzustellen, und die zweite Modalität des digitalen Bildes Tiefeninformationen für jedes Pixel enthält, um die gleiche Szene darzustellen.
  • Das Computersystem 100 umfasst einen Prozessor 102, der konfiguriert ist, gespeicherte Anweisungen auszuführen, sowie einen Speicher 104, der Anweisungen speichert, die durch den Prozessor ausführbar sind. Der Prozessor 102 kann ein Einkernprozessor, ein Mehrkernprozessor, ein Computercluster oder eine beliebige Anzahl anderer Konfigurationen sein. Der Speicher 104 kann einen Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder andere geeignete Speichersysteme aufweisen. Der Prozessor 102 ist über einen Bus 106 mit einer oder mehreren Ein- und Ausgabeeinrichtungen verbunden.
  • Das Computersystem 100 umfasst einen neuronales-Netzwerk-Bildgenerator (NNIG) 114 zum Generieren der multimodalen digitalen Bilder. Der NNIG 114 wird unter Verwendung einer neuronalen Netzwerkgruppe implementiert, z.B. einem ersten neuronalen Netzwerk und einem zweiten neuronalen Netzwerk, die gemeinsam trainiert sind, um das multimodale digitale Bild zu generieren. So können beispielsweise das erste und das zweite neuronale Netzwerk die gleiche Eingabe akzeptieren und das multimodale digitale Bild generieren, wobei das erste neuronale Netzwerk die erste Modalität des digitalen Bildes generiert und das zweite neuronale Netzwerk die zweite Modalität des digitalen Bildes generiert. Der NNIG 114 kann im Speicher des Systems 100 gespeichert werden.
  • Das Computersystem 100 kann auch eine Speichereinrichtung 108 umfassen, die zum Speichern von zusätzlichen Daten und/oder Softwaremodulen, die von dem NNIG 114 verwendet werden, ausgelegt ist. So kann beispielsweise die Speichereinrichtung 108 Eingabevektoren 110 speichern, die vom NNIG 114 zur Generieren des multimodalen digitalen Bildes verwendet werden. Zusätzlich oder alternativ kann die Speichereinrichtung 108 einen Vektorgenerator 112 zum Generieren der Vektoren 110 speichern. So kann beispielsweise der Vektorgenerator 112 unter Verwendung des Prozessors 102 oder einem anderen geeigneten Prozessor implementiert werden. Die Vektoren 110 können unterschiedliche oder sogar beliebige Werte aufweisen. So kann beispielsweise der Vektorgenerator 112 Elemente des Vektors mit Hilfe einer probabilistischen Verteilung zufällig generieren. Die Speichereinrichtung 108 kann auch die Struktur und die Parameter des NNIG 114 speichern. Die Speichereinrichtung 108 kann eine Festplatte, ein optisches Laufwerk, ein Daumen-Laufwerk, eine Gruppe von Laufwerken oder eine beliebige Kombination davon aufweisen.
  • Eine Mensch-Maschine-Schnittstelle 116 innerhalb des Computersystems 100 kann das System mit einer Tastatur 118 und einer Zeigeeinrichtung 120 verbinden, wobei die Zeigeeinrichtung 120 unter anderem eine Maus, einen Trackball, ein Touchpad, einen Joystick, einen Trackpoint, einen Zeigerstift oder einen Touchscreen umfassen kann. Das Computersystem 100 kann über den Bus 106 mit einer Anzeigeschnittstelle 122 verbunden werden, die ausgelegt ist, das System 100 mit einer Anzeigeeinrichtung 124 zu verbinden, wobei die Anzeigeeinrichtung 124 unter anderem einen Computermonitor, eine Kamera, ein Fernsehgerät, einen Projektor oder eine mobile Einrichtung umfassen kann.
  • Das Computersystem 100 kann auch mit einer Abbildungsschnittstelle 126 verbunden sein, die geeignet ist, das System mit einer Abbildungseinrichtung 128 zu verbinden. Die Abbildungseinrichtung 128 kann eine Kamera, einen Computer, einen Scanner, eine mobile Einrichtung, eine Webcam oder eine beliebige Kombination davon umfassen. Eine Druckerschnittstelle 130 kann auch über den Bus 106 mit dem Computersystem 100 verbunden sein, und ist ausgelegt, das Computersystem 100 mit einer Druckeinrichtung 132 zu verbinden, wobei die Druckeinrichtung 132 unter anderem einen Flüssigkeitstintenstrahldrucker, einen Festtintendrucker, einen kommerziellen Großdrucker, einen Thermodrucker, einen UV-Drucker oder einen Farbsublimationsdrucker umfassen kann. Eine Netzwerkschnittstellensteuerung 134 ist ausgelegt, das Computersystem 100 über den Bus 106 mit einem Netzwerk 136 zu verbinden. Das multimodale digitale Bild kann auf einer Anzeigeeinrichtung, einer Abbildungseinrichtung und/oder einer Druckeinrichtung gerendert werden. Das multimodale digitale Bild kann über einen Kommunikationskanal des Netzwerks 136 übertragen und/oder im Speichersystem 108 des Computers zur Speicherung und/oder Weiterverarbeitung gespeichert werden.
  • 2A zeigt ein Blockdiagramm eines computerimplementierten Verfahrens zum Generieren eines multimodalen digitalen Bildes gemäß einer Ausführungsform der Erfindung. Das Verfahren verarbeitet 220 einen Vektor 210 mit einem ersten neuronalen Netzwerk 240, um eine erste Modalität 225 des digitalen Bildes zu erzeugen, und verarbeitet 230 den Vektor 210 mit einem zweiten neuronalen Netzwerk 250, um eine zweite Modalität 235 des digitalen Bildes zu erzeugen. Das Verfahren kann mit dem NNIG 114 durchgeführt und mit einem Prozessor des Computersystems 100, z.B. dem Prozessor 102, ausgeführt werden.
  • Einige Ausführungsformen basieren auf der Erkenntnis, dass, wenn neuronale Netzwerke unabhängig voneinander trainiert werden, um ein Bild zu generieren, die generierten Bilder nicht zueinander in Beziehung stehen. Indem jedoch eine Gewichtungsverteilungs-Randbedingung in den neuronalen Netzwerken auferlegt wird und ausreichende Trainingsbilder in jeder Modalität vorhanden sind, können die neuronalen Netzwerke gemeinsam trainiert werden, um ein multimodales digitales Bild zu generieren.
  • 2B zeigt eine exemplarische schematische Darstellung der Struktur des ersten neuronalen Netzwerks 240, das zur Erzeugung einer ersten Modalität des digitalen Bildes trainiert ist, und der Struktur des zweiten neuronalen Netzwerks 250, das zur Erzeugung einer zweiten Modalität des digitalen Bildes trainiert ist. Die Struktur, z.B. die Anzahl der Schichten und die Verbindung zwischen den Schichten, des ersten neuronalen Netzwerks sind identisch mit der Struktur des zweiten neuronalen Netzwerks. Zusätzlich weist zumindest eine Schicht im ersten neuronalen Netzwerk Parameter auf, die mit den Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind. Allerdings weist zumindest eine Schicht im ersten neuronalen Netzwerk Parameter auf, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden. Im Beispiel von 2B, sind die Schichten 231, 232, 233, 234, 235 und 236 dargestellt. Die korrespondierenden Schichten 231, 232 und 233 haben die gleichen Parameter, während die korrespondierenden Schichten 234, 235 und 246 unterschiedliche Parameter haben.
  • Typischerweise sind die Schichten mit identischen Parametern die obersten Schichten, um die übergeordneten Merkmale der Bilder aufzuerlegen. So werden beispielsweise die beiden Netzwerke gemeinsam trainiert und gleichzeitig identische Parameter für mehrere obere Schichten des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks umgesetzt. Auf diese Weise erzwingen die identischen strukturidentischen Parameter der Netzwerke eine gewisse Gemeinsamkeit in den generierten Bildern, während die unterschiedlichen Parameter von zumindest einigen Schichten der Netzwerke die unterschiedlichen Modalitäten erzwingen. So erzeugen beispielsweise in einer Ausführungsform die Schichten des ersten und des zweiten neuronalen Netzwerks, die identische Parameter aufweisen, übergeordnete Merkmale des digitalen Bildes, und die Schichten des ersten und des zweiten neuronalen Netzwerks, die unterschiedliche Parameter aufweisen, erzeugen untergeordnete Merkmale des digitalen Bildes. Typischerweise werden die untergeordneten Merkmale von den übergeordneten Merkmalen abgeleitet. So können beispielsweise die übergeordneten Merkmale eine Beschreibung der Typen und Konfigurationen der Objekte im Bild sein, und die untergeordneten Merkmale können Kanten der Objekte sein, die basierend auf den Typen und Konfigurationen der Objekte bestimmt werden.
  • Gekoppelte generative gegnerische Netzwerke
  • Einige Ausführungsformen der Erfindung verwenden einen gekoppeltes-generatives-gegnerisches-Netzwerk-(CoGAN)-Rahmen, um den NNIG 114 zu trainieren, der das multimodale digitale Bild rendern kann, ohne dass eine Eins-zu-Eins-Korrespondenz im Trainingsdatensatz vorhanden ist. Der Rahmen basiert auf den generativen gegnerischen Netzwerken (GAN) zur Bildgenerierung. Der CoGAN-Rahmen umfasst mindestens ein Paar von GANs.
  • Jedes GAN ist darauf trainiert, Bilder in einer Domäne zu generieren, und der Rahmen des CoGAN zwingt jedes GAN dazu, verschiedene Bilder zu generieren, die mindestens in einer Hinsicht miteinander in Beziehung stehen. Indem beispielsweise die Schichten, die übergeordnete Informationen in den zwei GANs dekodieren, gezwungen werden, die Netzwerkverbindungsgewichtungen zu teilen, dekodieren die zwei GANs die übergeordnete Semantik auf die gleiche Weise. Dann bilden die Schichten, die untergeordnete visuelle Informationen dekodieren, die gemeinsame Semantik auf Bilder verschiedener Modalitäten ab, um die diskriminativen Teilnetzwerke für jede Modalität zu verwirren. Durch Erzwingen einer Gewichtungsteilungs-Randbedingung im generativen Teilnetzwerk und vorausgesetzt, dass ausreichende Trainingsbilder in jeder Domäne vorhanden sind, wird das CoGAN trainiert, um die Korrespondenz in den verschiedenen Modalitäten zu erwerben.
  • Zu diesem Zweck werden in einigen Ausführungsformen mindestens ein oder beide des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks unter Verwendung des gegnerischen Trainingsverfahrens trainiert. So können beispielsweise ein erstes generatives Teilnetzwerk und ein erstes diskriminatives Teilnetzwerk des ersten neuronalen Netzwerks sowie ein zweites generatives Teilnetzwerk und ein zweites diskriminatives Teilnetzwerk des zweiten neuronalen Netzwerks gemeinsam trainiert werden, um eine Minimax-Zielfunktion zu minimieren.
  • Generative gegnerische Netzwerke
  • 3 zeigt ein Blockdiagramm eines GAN, das von einigen Ausführungsformen zum Trainieren des NNIG 114 verwendet wird. Der GAN-Rahmen umfasst zwei Teilnetzwerke, ein generatives Teilnetzwerk 301 und ein diskriminatives Teilnetzwerk 302. Das Ziel des generativen Teilnetzwerks 301 ist es, aus einer zufälligen Eingabe 305, z.B. dem Vektor 210, Bilder 300 zu synthetisieren oder zu erzeugen, die Trainingsbildern 310 ähneln. Das Ziel des diskriminativen Teilnetzwerks 302 ist es, die Bilder 310 von synthetisierten Bildern 300 zu unterscheiden 303. Sowohl das generative als auch das diskriminative Teilnetzwerk können als mehrschichtige Perzeptren implementiert werden, d.h. als vorwärtsgerichtetes neuronales Netzwerk oder mehrschichtige faltende neuronale Netzwerke.
  • Formal betrachtet sei angenommen, dass DGAN der Trainingsdatensatz ist, wobei jede Probe, x aus einer Datenverteilung entnommen ist, x:pX. Es sei angenommen, dass z eine mehrdimensionale gleichmäßige Verteilung d ist. In einer Ausführungsform ist z aus einer mehrdimensionalen gleichmäßigen Verteilung entnommen. Alternative Ausführungsformen verwenden unterschiedliche Verteilungen, wie die mehrdimensionale normale Verteilung. Es sei angenommen, dass g und f das generative bzw. das diskriminative Teilnetzwerk sind. Die Funktion g nimmt z als Eingabe und gibt eine Zufallszahl g(z) aus, die die gleiche Stütze hat wie x . Die Verteilung von g(z) sei als pG bezeichnet. Die Funktion f schätzte die Probabilität, dass eine Eingabe aus pX entnommen wird. Insbesondere ist f(x) = 1, wenn x ist aus pX und f(x) = 0, wenn x ist aus pG .
  • Analog dazu entspricht dar GAN-Rahmen einem Minimax-Zweispieler-Spiel, und die generativen und diskriminativen Teilnetzwerke können gemeinsam trainiert werden durch Lösen von: max g min f V GAN ( f , g )
    Figure DE112017002799T5_0001
    wobei die Wertfunktion VGAN gegeben ist durch V GAN ( f , g ) = E x : p X [ log f ( x ) ] + E z : p Z [ log ( 1 f ( g ( z ) ) ) ] .
    Figure DE112017002799T5_0002
  • Ein Backpropagation-Algorithmus mit stochastischem Gradientenabstieg wird verwendet, um die Netzwerke g und f zu trainieren. In einigen Ausführungsformen wird Gleichung (1) durch Alternieren der folgenden zwei Gradientenaktualisierungsschritte gelöst:
    • Schritt 1: θ f t + 1 = θ f t λ t θ f V G A N ( f t , g t )
      Figure DE112017002799T5_0003
    • Schritt 2: θ g t + 1 = θ g t + λ t θ g V G A N ( f t + 1 , g t )
      Figure DE112017002799T5_0004
    wobei θf und θg die lernbaren Netzwerkparameter des Netzwerks f und g sind, λ die Lernrate ist, und der hochgestellte Buchstabe t die Iteration der Anzahl von Gradientenaktualisierungen angibt.
  • Gegeben ausreichende Kapazität von f und g und ausreichende Trainingswiederholungen, konvergiert die Verteilung pG zu pX . Das heißt, aus einem zufälligen Anfangswert, z, kann das Netzwerk g ein Bild synthetisieren, g(z), das ähnlich zu denen ist, die aus einer echten Datenverteilung, pX , entnommen wurden. Zu diesem Zweck kann das generative Teilnetzwerk 301 einen Teil des NNIG 114 bilden.
  • Gekoppelte Generative Adversarial Nets, generative gegnerische Netze
  • 4A zeigt den CoGAN-Rahmen gemäß einigen Ausführungsformen. Das CoGAN umfasst ein Paar generative gegnerische Netzwerke: GAN1 und GAN2. Jedes der generativen gegnerischen Netzwerke hat ein generatives Teilnetzwerk, das die Bilder synthetisieren kann, und ein diskriminatives Teilnetzwerk, das klassifizieren kann, ob ein Eingangssignal ein reales Bild oder ein synthetisiertes Bild ist. Die generativen Teilnetzwerke für GAN1 und GAN2 sind durch g1 4011 und g2 4012 bezeichnet, während die diskriminativen Teilnetzwerke für GAN1 und GAN2 durch f1 4021 and f2 4022 bezeichnet sind. Die Teilnetzwerke können als mehrschichtige Perzeptren implementiert werden.
  • Das generative Teilnetzwerk 4011 wird trainiert, um aus einem Eingabevektor 305 Bilder 3001 in der ersten Modalität zu erzeugen und das generative Teilnetzwerk 401 wird trainiert, um aus dem Eingabevektor 305 Bilder 3002 in der zweiten Modalität zu erzeugen. Um das Training zu erleichtern, unterscheidet 4031 das diskriminative Teilnetzwerk 4021 die Bilder 3001 von den Trainingsbildern der ersten Modalität 311. Ebenso unterscheidet 4032 das diskriminative Teilnetzwerk 4022 die Bilder 3002 von den Trainingsbildern der ersten Modalität 312.
  • 4B zeigt ein Beispiel für die Gewichtungsteilungs-Randbedingungen im gekoppelten generativen gegnerischen Netzwerk. Im CoGAN-Rahmen sind die Gewichtungen der unteren Schichten 420 von generativen Teilnetzwerken g1 and g2 , d.h. der Schichten, die übergeordneten semantischen Informationen entsprechen, darauf beschränkt, identische Gewichtungen aufzuweisen, d.h. die identischen Parameter. In diesem Beispiel werden die Gewichtungen der oberen Schichten 410 entsprechend den übergeordneten semantischen Informationen der diskriminativen Teilnetzwerke f1 und f2 geteilt.
  • Insbesondere werden die generativen und diskriminativen Teilnetzwerke meist oder sogar ausschließlich während der Trainingsphase genutzt. Nachdem das generative Teilnetzwerk trainiert wurde, kann das diskriminative Teilnetzwerk verworfen werden, und das generative Teilnetzwerk wird zum ersten 240 oder zweiten 250 neuronalen Netzwerk.
  • Dieses Gewichtungsteilungsschema zwingt GAN1 und GAN2, Paare korrespondierender Bilder zu synthetisieren, wobei die Korrespondenz in dem Sinne definiert ist, dass zwei Bilder dieselben übergeordneten semantischen Informationen teilen, aber unterschiedliche untergeordnete Erkennungen aufweisen, wie beispielsweise ein Bild und seine Drehung oder das Gesicht einer Person mit Brille und das Gesicht derselben Person ohne Brille. So kann beispielsweise das CoGAN verwendet werden, um ein Bild und seine Drehung zu synthetisieren oder ein Gesicht mit Brille und das gleiche Gesicht ohne Brille zu synthetisieren. Der CoGAN-Rahmen kann durch einfaches Hinzufügen weiterer GANs erweitert werden, um die gemeinsame Bildgenerierung in mehreren Modalitäten zu ermöglichen.
  • Generative Teilnetzwerke
  • Es sei angenommen, dass DDGAN der Trainingsdatensatz ist, wobei jede Probe entweder aus der Datenverteilung der ersten Modalität, x1 : pX 1 , oder aus der Datenverteilung der zweiten Modalität, x2:pX 2 entnommen ist. Es sei angenommen, dass g1 und g2 die generativen Teilnetzwerke des GAN1 und GAN2 sind. Die Teilnetzwerke bilden eine zufällige Vektoreingabe z einzeln auf Bildern ab, die die gleiche Stütze aufweisen wie x1 und x2 . Die Verteilungen von g1 (z) und g1 (z) sind durch PG 1 und PG 2 angegeben.
  • In einer Ausführungsform sind sowohl g1 als auch g2 als mehrschichtige Perzeptren implementiert und können ausgedrückt werden als g 1 ( z ) = g 1 ( m 1 ) ( g 1 ( m 1 1 ) ( g 1 ( 2 ) ( g 1 ( 1 ) ( z ) ) ) ) ,  und
    Figure DE112017002799T5_0005
    g 2 ( z ) = g 2 ( m 2 ) ( g 2 ( m 2 1 ) ( g 2 ( 2 ) ( g 2 ( 1 ) ( z ) ) ) ) ,
    Figure DE112017002799T5_0006
    wobei g 1 ( i )
    Figure DE112017002799T5_0007
    und g 2 ( i )
    Figure DE112017002799T5_0008
    die i-ten Schichten von g1 und g2 sind, und m1 und m2 die Anzahl von Schichten in den generativen Teilnetzwerken g1 und g2 sind. Es ist darauf hinzuweisen, dass m1 nicht gleich sein muss wie m2 . θ g 1 ( i )  und  θ g 2 ( i )
    Figure DE112017002799T5_0009
    sind zu verwenden, um lernbare Parameter für g 1 ( i )
    Figure DE112017002799T5_0010
    beziehungsweise g 2 ( i )
    Figure DE112017002799T5_0011
    anzugeben.
  • Durch Schichten von Perzeptrenoperationen dekodieren die generativen Teilnetzwerke allmählich Informationen von abstrakteren Konzepten zu konkreteren Details. Die unteren Schichten dekodieren übergeordnete semantische Informationen und die oberen Schichten dekodieren untergeordnete Detailinformationen. Es ist zu beachten, dass sich dieser Informationsfluss von einem diskriminativen tiefen neuronalen Netzwerk für die Klassifikationsaufgabe unterscheidet. Im diskriminativen Teilnetzwerk extrahieren die unteren Schichten untergeordnete Merkmale, während die oberen Schichten übergeordnete Merkmale extrahieren.
  • Da korrespondierende Bilder in verschiedenen Modalitäten die gleichen übergeordneten semantischen Informationen teilen, zwingen einige Ausführungsformen die unteren Schichten 420 von g1 und g2 , die identische Struktur aufzuweisen und die Gewichtungen zu teilen. Das heißt θ g 1 ( i ) = θ g 2 ( i ) ,  for  i = 1,2, , k ,
    Figure DE112017002799T5_0012
    wobei k die Anzahl der geteilten Schichten ist. Diese Gewichtungssteilungs-Randbedingung erzwingt, dass die übergeordneten Informationen auf die gleiche Weise durch die generativen Netzwerke g1 und g2 dekodiert werden. Einige Ausführungsformen stellen keine zusätzlichen Randbedingungen für die oberen Schichten bereit. Die Randbedingungen dürfen lernen, die übergeordneten semantischen Informationen in der für die einzelnen Modalitäten optimalsten Weisen zu materialisieren.
  • Diskriminatives Teilnetzwerk
  • Die Ableitung des diskriminativen Teilnetzwerks ist ähnlich wie die für das generative Teilnetzwerk. Es sei angenommen, dass f1 und f2 die diskriminativen Teilnetzwerke des GAN1 und GAN2 sind, die als mehrschichtige Perzeptren implementiert sein können: f 1 ( x 1 ) = f 1 ( n 1 ) ( f 1 ( n 1 1 ) ( f 1 ( 2 ) ( f 1 ( 1 ) ( x 1 ) ) ) ) ,  und
    Figure DE112017002799T5_0013
    f 2 ( x 2 ) = f 2 ( n 2 ) ( f 2 ( n 2 1 ) ( f 2 ( 2 ) ( f 2 ( 1 ) ( x 2 ) ) ) ) ,  
    Figure DE112017002799T5_0014
    wobei f 1 ( i )  und  f 2 ( i )
    Figure DE112017002799T5_0015
    die i-ten Schichten von f1 und f2 sind, und n1 und n2 die Anzahl von Schichten von f1 und f2 sind. θ f 1 ( i )  und  θ f 2 ( i )
    Figure DE112017002799T5_0016
    sind zu verwenden, um lernbare Parameter für f 1 ( i )  und  f 2 ( i )
    Figure DE112017002799T5_0017
    anzugeben.
  • Die diskriminativen Teilnetzwerke bilden ein Eingabebild auf einer Probabilitätsbewertung ab, die die Probabilität schätzt, dass die Eingabe aus den Trainingsdatenverteilungen entnommen ist. Für diese Teilnetzwerke extrahieren die unteren Schichten der diskriminativen Teilnetzwerke untergeordnete Merkmale, während die oberen Schichten übergeordnete Merkmale extrahieren. Da die Eingabebilder die Erkennung der gleichen übergeordneten Semantik in zwei verschiedenen Modalitäten sind, zwingen einige Ausführungsformen die diskriminativen Teilnetzwerke f1 und f2 , die gleichen oberen Schichten 410 aufzuweisen, was durch Teilen der Gewichtungen der oberen Schichten der zwei diskriminativen Teilnetzwerke erzielt wird durch θ f 1 ( n 1 i ) = θ f 2 ( n 2 i ) ,   für  i = 0,1, , l 1,   ,
    Figure DE112017002799T5_0018
    wobei l die Anzahl der geteilten Schichten ist.
  • Training
  • Analog dazu entspricht das Training des CoGAN auch einem eingeschränkten Minimax-Spiel, angegeben durch: max g 1 , g 2 min f 1 , f 2 V DGAN ( f 1 , f 2 , g 1 , g 2 )
    Figure DE112017002799T5_0019
    unter der Bedingung θ g 1 ( i ) = θ g 2 ( i ) ,   für  i = 1,2, , k
    Figure DE112017002799T5_0020
    θ f 1 ( n 1 i ) = θ f 2 ( n 2 i ) ,   für  i = 0,1, , l 1
    Figure DE112017002799T5_0021
    wobei die Wertfunktion VDGAN ist: V D G A N ( f 1 , f 2 , g 1 , g 2 ) = E x 1 : p X 1 [ log  f 1 ( x 1 ) ]             + E z : p Z [ log  ( 1 f 1 ( g 1 ( z ) ) ) ] + E x 2 : p X 2 [ log  f 2 ( x 2 ) ]             + E z : p Z [ log  ( 1 f 2 ( g 2 ( z ) ) ) ] .
    Figure DE112017002799T5_0022
  • Bei dieser Spielanalogie gibt es zwei Teams und jedes Team hat zwei Spieler. Die generativen Teilnetzwerke g1 und g2 bilden ein Team und arbeiten zusammen, um ein Paar korrespondierender Bilder in zwei verschiedenen Modalitäten zu synthetisieren, um die diskriminativen Teilnetzwerke f1 und f2 zu verwirren. Andererseits versuchen die diskriminativen Teilnetzwerke, aus der Trainingsdatenverteilung entnommene Bilder in den jeweiligen Modalitäten von den aus den jeweiligen generativen Teilnetzwerken entnommenen Bildern zu unterscheiden. Die Zusammenarbeit wird aus den Gewichtungsverteilungs-Randbedingungen aufgebaut. Ähnlich wie beim GAN-Rahmen kann das Training des generativen und diskriminativen Teilnetzwerks durch den Backpropagation-Algorithmus mit einem alternierenden Gradientenaktualisierungsschema erreicht werden.
  • Im CoGAN-Spiel gibt es zwei Teams und jedes Team hat zwei Spieler. Die generativen Teilnetzwerke g1 und g2 bilden ein Team und arbeiten zusammen, um ein Paar korrespondierender Bilder in zwei verschiedenen Modalitäten zu synthetisieren, um die diskriminativen Teilnetzwerke f1 und f2 zu verwirren. Die diskriminativen Teilnetzwerke versuchen, aus der Trainingsdatenverteilung entnommene Bilder in den jeweiligen Modalitäten von den aus den jeweiligen generativen Teilnetzwerken entnommenen Bildern zu unterscheiden. Die Zusammenarbeit wird aus den Gewichtungsverteilungs-Randbedingungen aufgebaut. Ähnlich wie beim GAN-Rahmen kann das Lernen des generativen und diskriminativen Teilnetzwerks durch den Backpropagation-Algorithmus mit alternierender Gradientenaktualisierung erreicht werden.
  • 5A zeigt eine schematische Darstellung des Trainings neuronaler Netzwerke, das von einigen Ausführungsformen der Erfindung verwendet wird. Das Training 510 verwendet einen Trainingssatz aus Bildern 501 und 502 verschiedener Modalitäten, um die Parameter 520 des NNIG zu erzeugen, wobei die Bilder 501 nicht mit den Bildern 502 korrespondieren müssen. Im Allgemeinen umfasst das Training eines künstlichen neuronalen Netzwerks die Anwendung eines Trainingsalgorithmus, manchmal auch als „lernender“ Algorithmus bezeichnet, auf ein künstliches neuronales Netzwerk im Hinblick auf einen Trainingssatz. Ein Trainingssatz kann einen oder mehrere Sätze von Eingaben und einen oder mehrere Sätze von Ausgaben umfassen, wobei jeder Satz von Eingaben mit einem Satz von Ausgaben korrespondiert. Ein Satz von Ausgaben in einem Trainingssatz umfasst einen Satz von Ausgaben, die das künstliche neuronale Netzwerk erzeugen soll, wenn der korrespondierende Satz von Eingaben in das künstliche neuronale Netzwerk eingegeben wird, und das künstliche neuronale Netzwerk dann in einer vorwärts gerichteten Weise betrieben wird. Beim Training des neuronalen Netzwerks werden die Parameter berechnet, z.B. die Gewichtungswerte, die den Verbindungen im künstlichen neuronalen Netzwerk zugeordnet sind.
  • 5B zeigt einen Pseudocode des Trainings 510 gemäß einer Ausführungsform der Erfindung. Während des CoGAN-Trainings werden die Trainingsproben unabhängig von den Randverteilungen entnommen, um nicht Proben aus der gemeinsamen Verteilung zugrundezulegen, bei denen es Eins-zu-eins-Korrespondenzen gibt. Auf diese Weise trainiert das CoGA generative Teilnetzwerke, die verschiedene Modalitäten der digitalen Bilder in Korrespondenz synthetisieren können, ohne jedoch im Voraus über die Korrespondenzen zu verfügen. Die Fähigkeit, die gemeinsame Verteilung aus Randbedingungen zu lernen, kann die Last bei der Trainingsdatensammlung für die Paarbildgenerierung weitgehend verringern, da das Erwerben korrespondierender Bilder auch in zwei verschiedenen Modalitäten sehr schwierig sein kann.
  • 5C zeigt ein Blockdiagramm eines Trainingssystems gemäß einer Ausführungsform der Erfindung. Das Trainingssystem umfasst einen Prozessor, der über einen Bus 22 mit einem Nur-Lese-Speicher (ROM) 24 und einem Speicher 38 verbunden ist. Das Trainingssystem kann auch eine Anzeige 28 aufweisen, um dem Benutzer Informationen zu präsentieren, und eine Vielzahl von Eingabeeinrichtungen aufweisen, umfassend eine Tastatur 26, eine Maus 34 und andere Einrichtungen, die über den Ein-/Ausgabeport 30 verbunden werden können. Andere Eingabeeinrichtungen, wie andere Zeigeeinrichtungen oder Sprachsensoren oder Bildsensoren können ebenfalls verbunden werden. Andere Zeigeeinrichtungen umfassen Tablets, numerische Tastenfelder, Touchscreens, Touchscreen-Überlagerungen, Trackballs, Joysticks, Lichtstifte, Daumenräder usw. Die I/O 30 kann mit Kommunikationsleitungen, Plattenspeichern, Eingabeeinrichtungen, Ausgabeeinrichtungen oder anderen I/O-Ausrüstungen verbunden werden. Der Speicher 38 umfasst einen Anzeigepuffer 72, der Pixelintensitätswerte für einen Anzeigebildschirm enthält. Die Anzeige 28 liest periodisch die Pixelwerte aus dem Anzeigepuffer 72 und zeigt diese Werte auf einem Anzeigebildschirm an. Die Pixelintensitätswerte können Graustufen oder Farben darstellen.
  • Der Speicher 38 umfasst eine Datenbank 90, den Trainer 82, das NNIG 114 und den Präprozessor 84. Die Datenbank 90 kann die historischen Daten 105, Trainingsdaten und Testdaten 92 beinhalten. Die Datenbank kann auch Ergebnisse aus den Betriebs-, Trainings- oder Zurückhaltemodi der Nutzung des neuronalen Netzwerks enthalten. Diese Elemente wurden bereits ausführlich oben beschrieben.
  • Ebenfalls im Speicher 38 gezeigt wird das Betriebssystem 74. Beispiele für Betriebssysteme sind AIX, OS/2, DOS, LINUX und WINDOWS. Weitere Elemente, die im Speicher 38 gezeigt sind, sind Einrichtungstreiber 76, die die elektrischen Signale interpretieren, die von Einrichtungen, wie der Tastatur und der Maus, erzeugt werden. Ein Arbeitsspeicherbereich 78 ist ebenfalls im Speicher 38 gezeigt. Der Arbeitsspeicherbereich 78 kann von irgendeinem der im Speicher 38 gezeigten Elemente genutzt werden. Der Arbeitsspeicherbereich kann durch das neuronale Netzwerk 101, den Trainer 82, das Betriebssystem 74 und anderen Funktionen genutzt werden. Der Arbeitsspeicherbereich 78 kann zwischen den Elementen und innerhalb eines Elements aufgeteilt werden. Der Arbeitsspeicherbereich 78 kann für die Kommunikation, Pufferung, Zwischenspeicherung oder Speicherung von Daten während der Ausführung eines Programms genutzt werden.
  • Beispiele
  • Die in dieser Offenbarung aufgeführten Beispiele stellen dar, dass das NNIG, das durch einige Ausführungsformen unter Verwendung des CoGAN-Rahmens trainiert wurde, verschiedene Arten von multimodalen digitalen Bildern auf ausschließlich nicht überwachte Weise erzeugen kann, ohne die Eins-zu-Eins-Korrespondenz zwischen verschiedenen Modalitäten in den Trainingsdaten zugrundezulegen.
  • Generierung von Ziffern
  • 6A zeigt ein Beispiel für die Struktur 610 von generativen und diskriminativen Teilnetzwerken zum Erzeugen multimodaler digitaler Bilder von handschriftlichen Ziffern gemäß einer Ausführungsform. Die Ausführungsform verwendet 60000 Trainingsbilder im Trainingsdatensatz, um CoGANs für die Generierung von Ziffern in zwei verschiedenen Modalitäten zu trainieren, umfassend beispielsweise die Generierung einer Ziffer und ihres Kantenbildes und/oder die Generierung einer Ziffer und ihres Negativbildes. So kann beispielsweise die erste Modalität handgeschriebene digitale Bilder beinhalten, während die zweite Modalität ihre korrespondierenden Kantenbilder beinhalten kann. Die Beispiele für die multimodalen digitalen Bilder, die durch einige Ausführungsformen erzeugt werden, sind in 6B dargestellt. In einem weiteren Beispiel umfassen die zwei Modalitäten die handschriftlichen digitalen Bilder bzw. deren Negativbilder. Die Beispiele für diese multimodalen digitalen Bilder, die durch einige Ausführungsformen generiert werden, sind in 6C dargestellt.
  • Im Beispiel gemäß 6A hatten die zwei generativen Teilnetzwerke eine identische Struktur; beide hatten 5 Schichten und waren vollständig gefaltet. Die Schrittlängen der gefalteten Schichten waren fraktioniert. Die Teilnetzwerke verwendeten auch die Batch-Normalisierungsschichten und die parametrisierten rektifizierten Lineareinheitenschichten. Die generativen Teilnetzwerke teilen sich die Parameter für alle Schichten mit Ausnahme der letzten gefalteten Schichten, die für die Generierung von Bildausgaben verantwortlich waren. Die diskriminativen Teilnetzwerke verwenden eine Variante des LeNets. Die Eingaben in die diskriminativen Teilnetzwerke sind Batches mit Ausgabebildern aus den generativen Teilnetzwerken und Bildern aus den zwei Trainingsteilsätzen (jeder Pixelwert wird linear von 0 auf 1 normiert). Eine Implementierung verwendet die adaptives-Moment-stochastische-Gradientenabstiegs-(ADAM)-Methode, um den CoGAN für 25000 Iterationen zu trainieren.
  • Generierung von Gesichtern
  • 7A zeigt ein Beispiel der Struktur 710 von generativen und diskriminativen Teilnetzwerken zur Generierung multimodaler Gesichtsbilder mit unterschiedlichen Attributen gemäß einer Ausführungsform. Die Ausführungsform trainierte die verschiedenen CoGANs, jeweils zum Generieren eines Gesichtsbildes mit einem Attribut und des korrespondierenden Gesichtsbildes ohne das Attribut. Der Trainingsdatensatz umfasste 10177 Personen mit 202599 Gesichtsbildern. Der Trainingsdatensatz umfasste große Posenvarianz und Hintergrundstörungen. Jedes Gesichtsbild hatte 40 Attribute, darunter Brille, Lächeln und blondes Haar. Die Gesichtsbilder mit einem Attribut bildeten die erste Modalität des digitalen Bildes; und diejenigen ohne das Attribut bildeten die zweite Modalität. Es gab keine überlappenden Gesichter in den zwei Modalitäten. In diesem Beispiel waren sowohl die generativen als auch die diskriminativen Teilnetzwerke sieben Schichten tiefe gefaltete neuronale Netzwerke.
  • 7B zeigt Beispiele für die multimodalen Bilder von Gesichtern mit blonden Haaren und dunklen Haaren. 7C zeigt Beispiele für die multimodalen Bilder von lächelnden und nicht lächelnden Gesichtern. 7D zeigt Beispiele für die multimodalen Bilder von Gesichtern mit Brille und ohne Brille.
  • Einige Implementierungen haben zufällig zwei Punkte im 100-dimensionalen Eingaberaum abgetastet und die Verformung der gerenderten Gesichter als von einem Punkt zum anderen wandernd visualisiert. Insbesondere erzeugte das CoGAN Paare von korrespondierenden Gesichtern, die denen von derselben Person mit unterschiedlichen Attributen ähneln. Während der Bewegung im Raum können die Gesichter schrittweise verformt werden, z.B. von einer Person zur anderen. Solche Verformungen sind für beide Modalitäten, die der CoGAN-Rahmen überprüft hat, konsistent.
  • Generierung von RGB- und Tiefenbildern
  • 8A zeigt ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler digitaler Bilder mit Farbbildern und den korrespondierenden Tiefenbildern gemäß einer Ausführungsform. Es ist zu beachten, dass die gerenderten Bildpaare zwei verschiedene Modalitäten hatten. Der Trainingsdatensatz enthielt RGBD-Bilder mit registrierten Farb- und Tiefenbildern von 300 Objekten, die von einem Sensor aus verschiedenen Blickwinkeln aufgenommen wurden. Die Farbbilder in der ersten Teilmenge wurden für das Training des GAN1 verwendet, während die Tiefenbilder in der zweiten Teilmenge für das Training des GAN2 verwendet wurden. In den beiden Teilmengen gab es keine korrespondierenden Tiefen- und Farbbilder. Die Bilder im Datensatz haben unterschiedliche Auflösungen.
  • 8B zeigt Beispiele für die multimodalen Farb- und Tiefenbilder. Das gerenderte Tiefenprofil verformte sich gleichmäßig und ähnelt realen Objekten.
  • Anwendungen
  • Neben dem Rendern multimodaler digitaler Bilder für die Film- und Spieleproduktion findet der offenbarte CoGAN-Rahmen Anwendung in den Bereichen Modalitätstransformation und Modalitätsanpassung. Es sei angenommen, dass x1 ein Bild in der ersten Modalität ist. Bei der Modalitätstransformationsaufgabe geht es darum, das korrespondierende Bild in der zweiten Modalität, x2 zu finden, so dass die gemeinsame Probabilitätsdichte p(x1 ,x2 ) maximiert wird. Es ein angenommen, dass L eine Verlustfunktion ist, die die Differenz zwischen zwei Bildern misst. Mit den trainierten generativen Teilnetzwerden g1 und g2 kann die Transformation durch eine erste Lösung erreicht werden: z * = a r g min z L ( g 2 ( z ) , x 2 )
    Figure DE112017002799T5_0023
    nach Finden von z*kann g2 angewendet werden, um das transformierte Bild, x2=g2(z), zu erhalten.
  • 9 zeigt ein Beispiel für die Modalitäten-Transformation gemäß einigen Ausführungsformen. So wird beispielsweise das Bild 910 in das Bild 920 transformiert, und das Bild 930 in das Bild 940 transformiert. Diese Beispiele werden unter Verwendung der Euklidischer-Abstands-(L2-Verlust)-Funktion und eines begrenzte-Speicher BFGS-(L-BFGS oder LM-BFGS)-Optimierungsverfahrens berechnet.
  • Die Modalitäten-Anpassung betrifft die Anpassung eines in einer Modalität trainierten Klassifikators an die andere. Zu diesem Zweck nutzt eine Ausführungsform den CoGAN-Rahmen für eine nicht überwachte Modalitäten-Anpassungsaufgabe. Es sei angenommen, dass D1 und D2 die Teilmengen der digitalen Bilder in der ersten Modalität und der zweiten Modalität sind, die in Aufgabe A eingesetzt werden. Es sein angenommen, dass die Kennzeichen (Labels) des Bildes in D1 bekannt waren aber die Klassenkennzeichen der Bilder in D2 unbekannt waren. Ein Ziel war es, den unter Verwendung von D1 trainierten Ziffern-Klassifikator anzupassen, um Ziffern in der zweiten Modalität zu klassifizieren. Das CoGAN kann trainiert werden durch gemeinsames Lösen des Ziffern-Klassifikationsproblems in der ersten Modalität, die in den Bildern und Kennzeichen in D1 verwendet wird, und des COGAN-Lernproblems, das die Bilder sowohl in D1 , als auch in D2 verwendet hat. Dies erzeugt zwei Klassifikatoren: c 1 ( x 1 ) = c ( f 1 ( 3 ) ( f 1 ( 2 ) ( f 1 ( 1 ) ( x 1 ) ) )
    Figure DE112017002799T5_0024
    für die erste Modalität und c 2 ( x 2 ) = c ( f 2 ( 3 ) ( f 2 ( 2 ) ( f 2 ( 1 ) ( x 2 ) ) )
    Figure DE112017002799T5_0025
    für die zweite Modalität. Es ist darauf hinzuweisen, dass f 2 ( 2 ) = f 1 ( 2 )  und  f 2 ( 3 ) = f 1 ( 3 )
    Figure DE112017002799T5_0026
    ist, aufgrund der Gewichtungsverteilung.
  • Zusätzlich oder alternativ erzeugt eine Ausführungsform eine Modalitätenverschiebung, indem sie die Testbilder der Mixed National Institute of Standards and Technology Database (MNIST) in ihre korrespondierenden Kantenbilder transformiert. Durch Anwendung von c1 zur Klassifizierung der Kantenbilder, verschlechterte sich die Klassifizierungsgenauigkeit aufgrund der Modalitätenverschiebung auf 87,0\%. Bei der Anwendung von c2 zur Klassifizierung der Bilder in der zweiten Modalität konnte jedoch eine Klassifizierungsgenauigkeit von 96,7\% erhalten werden. Die Genauigkeit liegt nahe an derjenigen, die in der ersten Modalität erhalten wurde. Dies war überraschend, da weder Kennzeichen in der zweiten Modalität noch Probenkorrespondenz zwischen den zwei Modalitäten verwendet wurden.
  • Die oben beschriebenen Ausführungsformen der vorliegenden Erfindung können auf vielfältige Weise umgesetzt werden. So können beispielsweise die Ausführungsformen unter Verwendung von Hardware, Software oder einer Kombination davon realisiert werden. Bei der Implementierung in Software kann der Softwarecode auf jedem geeigneten Prozessor oder jeder Sammlung von Prozessoren ausgeführt werden, unabhängig davon, ob er in einem einzelnen Computer bereitgestellt oder auf mehrere Computer verteilt ist. Solche Prozessoren können als integrierte Schaltungen mit einem oder mehreren Prozessoren in einer Komponente einer integrierten Schaltung implementiert werden. Allerdings kann ein Prozessor mit Hilfe von Schaltungen in jedem geeigneten Format implementiert werden.
  • Auch die Ausführungsformen der Erfindung können als ein Verfahren ausgeführt werden, für das ein Beispiel bereitgestellt wurde. Die als ein Teil des Verfahrens durchgeführten Handlungen können in jeder geeigneten Weise angeordnet werden. Dementsprechend können Ausführungsformen konstruiert werden, in denen Handlungen in einer anderen Reihenfolge als der dargestellten ausgeführt werden, was auch die gleichzeitige Ausführung einiger Handlungen beinhalten kann, auch wenn sie in illustrativen Ausführungsformen als sequentielle Handlungen dargestellt sind.
  • Die Verwendung von Ordnungszahlen wie „erste“, „zweite“ in den Ansprüchen zur Änderung eines Anspruchselements bedeutet für sich genommen keine Priorität, Vorrang oder Reihenfolge eines Anspruchselements gegenüber einem anderen oder die zeitliche Reihenfolge, in der Handlungen eines Verfahrens durchgeführt werden, sondern dient lediglich als Bezeichnung zur Unterscheidung eines Anspruchselements mit einer bestimmten Bezeichnung von einem anderen Element mit einer gleichen Bezeichnung (jedoch durch die Verwendung des Ordnungszahlen) zur Unterscheidung der Anspruchselemente.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 7876320 [0002]

Claims (20)

  1. Computerimplementiertes Verfahren zum Generieren eines multimodalen digitalen Bildes, umfassend: Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, um eine erste Modalität des digitalen Bildes zu erzeugen; und Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, um eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks identisch sind, wobei mindestens eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei mindestens eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden, wobei Schritte des Verfahrens unter Verwendung eines Prozessors durchgeführt werden.
  2. Verfahren nach Anspruch 1, ferner umfassend: zufälliges Generieren von Elementen des Vektors unter Verwendung einer probabilistischen Verteilung.
  3. Verfahren nach Anspruch 1, wobei die Schichten der ersten und der zweiten neuronalen Netzwerke, die identische Parameter aufweisen, übergeordnete Merkmale des digitalen Bildes erzeugen, und wobei die Schichten der ersten und der zweiten neuronalen Netzwerke, die unterschiedliche Parameter aufweisen, untergeordnete Merkmale des digitalen Bildes erzeugen.
  4. Verfahren nach Anspruch 3, wobei die untergeordneten Merkmale von den übergeordneten Merkmalen abgeleitet werden.
  5. Verfahren nach Anspruch 1, wobei das digitale Bild eines von oder eine Kombination aus einem Bild, einem Video, einem Text und einem Ton aufweist.
  6. Verfahren nach Anspruch 1, ferner umfassend: gemeinsames Trainieren des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks unter Erzwingung identischer Parameter für mehrere untere Schichten des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks.
  7. Verfahren nach Anspruch 6, wobei zumindest eines oder beide des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks unter Verwendung von Generative-Adversarial-Networks (GANs = generative gegnerische Netzwerke) trainiert werden, aufweisend ein generatives Teilnetzwerk zum Erzeugen einer Probe des digitalen Bildes einer bestimmten Modalität und ein diskriminatives Teilnetzwerk zum Testen, ob die Probe des durch das generative Teilnetzwerk erzeugten digitalen Bildes die spezifische Modalität aufweist.
  8. Verfahren nach Anspruch 7, wobei ein erstes generatives Teilnetzwerk und ein erstes diskriminatives Teilnetzwerk des ersten neuronalen Netzwerks und ein zweites generatives Teilnetzwerk und ein zweites diskriminatives Teilnetzwerk des zweiten neuronalen Netzwerks gemeinsam trainiert werden, um eine Minimax-Zielfunktion zu minimieren.
  9. Verfahren nach Anspruch 1, ferner umfassend: Rendern des digitalen Bildes der ersten und zweiten Modalität auf einer Anzeigeeinrichtung oder Übertragen des digitalen Bildes der ersten und zweiten Modalität über einen Kommunikationskanal.
  10. Verfahren nach Anspruch 1, wobei die erste Modalität des digitalen Bildes ein Farbbild ist, und wobei die zweite Modalität des digitalen Bildes ein Tiefenbild ist.
  11. Verfahren nach Anspruch 1, wobei die erste Modalität des digitalen Bildes ein Farbbild ist, und wobei die zweite Modalität des digitalen Bildes ein Wärmebild ist.
  12. Verfahren nach Anspruch 1, wobei die erste Modalität des digitalen Bildes ein Bild ist, das einen ersten Stil aufweist, und wobei die zweite Modalität des digitalen Bildes ein Bild ist, das einen zweiten Stil aufweist.
  13. Verfahren nach Anspruch 1, wobei das erste neuronale Netzwerk und das zweite neuronale Netzwerk ausgewählt sind aus einer Gruppe der gemeinsam trainierten neuronalen Netzwerke, um eine Gruppe von Modalitäten des digitalen Bildes zu erzeugen, umfassend: Verarbeiten des Vektors mit einer Gruppe von neuronalen Netzwerken, um das multimodale digitale Bild zu erzeugen.
  14. Verfahren nach Anspruch 13, wobei die Gruppe der neuronalen Netzwerke ein gekoppeltes Generative Adversarial Network, generatives gegnerisches Netzwerk (CoGAN), bildet.
  15. System zum Generieren eines multimodalen digitalen Bildes, umfassend: mindestens einen nichtflüchtigen computerlesbaren Speicher, speichernd ein erstes neuronales Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und ein zweites neuronales Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch sind mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden; und einen Prozessor, um das multimodale digitale Bild zu generieren durch Verarbeiten eines Vektors mit dem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und Verarbeiten des Vektors mit dem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, und das multimodale digitale Bild im Speicher zu speichern.
  16. System nach Anspruch 15, ferner umfassend: eine Anzeigeeinrichtung zum Anzeigen des multimodalen digitalen Bildes.
  17. System nach Anspruch 15, wobei die Schichten der ersten und der zweiten neuronalen Netzwerke mit identischen Parametern übergeordnete Merkmale des digitalen Bildes erzeugen, und wobei die Schichten der ersten und der zweiten neuronalen Netzwerke mit unterschiedlichen Parametern untergeordnete Merkmale des digitalen Bildes erzeugen, wobei die übergeordneten Merkmale dem gesamten digitalen Bild zugeordnet sind und die untergeordneten Merkmale einem Teil des digitalen Bildes zugeordnet sind.
  18. System nach Anspruch 15, wobei das digitale Bild eines von oder eine Kombination aus einem Bild, einem Video, einem Text und einem Ton aufweist.
  19. System nach Anspruch 15, wobei das erste und das zweite neuronale Netzwerk gemeinsam trainiert werden.
  20. Nichtflüchtiges, computerlesbares Medium mit darauf gespeicherten Anweisungen, die bei Ausführung durch einen Prozessor die folgenden umfassenden Schritte durchführen: Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen; und Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks identisch sind, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden.
DE112017002799.3T 2016-06-01 2017-05-24 Verfahren und system zum generieren multimodaler digitaler bilder Active DE112017002799B4 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662344331P 2016-06-01 2016-06-01
US62/344,331 2016-06-01
US15/189,075 US9971958B2 (en) 2016-06-01 2016-06-22 Method and system for generating multimodal digital images
US15/189,075 2016-06-22
PCT/JP2017/020730 WO2017209307A1 (en) 2016-06-01 2017-05-24 Method and system for generating multimodal digital image

Publications (2)

Publication Number Publication Date
DE112017002799T5 true DE112017002799T5 (de) 2019-03-14
DE112017002799B4 DE112017002799B4 (de) 2023-03-02

Family

ID=59153238

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017002799.3T Active DE112017002799B4 (de) 2016-06-01 2017-05-24 Verfahren und system zum generieren multimodaler digitaler bilder

Country Status (5)

Country Link
US (1) US9971958B2 (de)
JP (1) JP6639700B2 (de)
CN (1) CN109196526B (de)
DE (1) DE112017002799B4 (de)
WO (1) WO2017209307A1 (de)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595039B2 (en) 2017-03-31 2020-03-17 Nvidia Corporation System and method for content and motion controlled action video generation
KR102403494B1 (ko) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
US10922556B2 (en) 2017-04-28 2021-02-16 Intel Corporation Storage system of DNN outputs for black box
EP3649579A1 (de) * 2017-08-07 2020-05-13 Siemens Aktiengesellschaft Verbesserte technik für visuelles maschinenlernen
CN107609481B (zh) * 2017-08-14 2020-11-20 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
JP7023669B2 (ja) * 2017-10-26 2022-02-22 株式会社Preferred Networks 画像生成方法、画像生成装置、及び画像生成プログラム
CN108122209B (zh) * 2017-12-14 2020-05-15 浙江捷尚视觉科技股份有限公司 一种基于对抗生成网络的车牌去模糊方法
US10540578B2 (en) * 2017-12-21 2020-01-21 International Business Machines Corporation Adapting a generative adversarial network to new data sources for image classification
US10937540B2 (en) 2017-12-21 2021-03-02 International Business Machines Coporation Medical image classification based on a generative adversarial network trained discriminator
US10592779B2 (en) 2017-12-21 2020-03-17 International Business Machines Corporation Generative adversarial network medical image generation for training of a classifier
US11576628B2 (en) * 2018-01-03 2023-02-14 Koninklijke Philips N.V. Full dose PET image estimation from low-dose PET imaging using deep learning
CN108121975B (zh) * 2018-01-04 2022-04-19 中科汇通投资控股有限公司 一种联合原始数据和生成数据的人脸识别方法
CN108427963B (zh) * 2018-03-02 2020-10-30 浙江工业大学 一种基于深度学习的黑色素瘤皮肤病的分类识别方法
US10552714B2 (en) * 2018-03-16 2020-02-04 Ebay Inc. Generating a digital image using a generative adversarial network
CN108510061B (zh) * 2018-03-19 2022-03-29 华南理工大学 基于条件生成对抗网络的多监控视频人脸合成正脸的方法
KR102565278B1 (ko) 2018-03-26 2023-08-09 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
US10839262B2 (en) 2018-04-24 2020-11-17 Here Global B.V. Machine learning a feature detector using synthetic training data
CN110738540B (zh) * 2018-07-20 2022-01-11 哈尔滨工业大学(深圳) 一种基于生成对抗网络的模特衣服推荐方法
US10699458B2 (en) * 2018-10-15 2020-06-30 Shutterstock, Inc. Image editor for merging images with generative adversarial networks
CN109447906B (zh) * 2018-11-08 2023-07-11 北京印刷学院 一种基于生成对抗网络的图片合成方法
US10915787B2 (en) * 2018-11-15 2021-02-09 Toyota Research Institute, Inc. System and method for generating training data from synthetic images
TWI705340B (zh) 2018-12-13 2020-09-21 財團法人工業技術研究院 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法
CN109671125B (zh) * 2018-12-17 2023-04-07 电子科技大学 一种高度融合的gan网络装置及实现文本生成图像的方法
CN109800399B (zh) * 2018-12-18 2023-05-26 北京奇艺世纪科技有限公司 模型生成方法、封面生成方法、装置及存储介质
CN109754447B (zh) * 2018-12-28 2021-06-22 上海联影智能医疗科技有限公司 图像生成方法、装置、设备和存储介质
CN109800730B (zh) * 2019-01-30 2022-03-08 北京字节跳动网络技术有限公司 用于生成头像生成模型的方法和装置
CN109948660A (zh) * 2019-02-26 2019-06-28 长沙理工大学 一种改进辅助分类器gan的图像分类方法
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN109934198B (zh) * 2019-03-22 2021-05-14 北京市商汤科技开发有限公司 人脸识别方法及装置
US10832450B2 (en) * 2019-03-27 2020-11-10 GM Global Technology Operations LLC Semantic preserved style transfer
CN109993712B (zh) 2019-04-01 2023-04-25 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法及相关设备
KR102039138B1 (ko) * 2019-04-02 2019-10-31 주식회사 루닛 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치
CN109961491B (zh) * 2019-04-12 2023-05-26 上海联影医疗科技股份有限公司 多模态图像截断补偿方法、装置、计算机设备和介质
CN110288668B (zh) * 2019-05-20 2023-06-16 平安科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质
CN110148128B (zh) * 2019-05-23 2023-04-18 中南大学 一种补全病变骨骼以获得骨骼预期参考模型的方法
CN110444277B (zh) * 2019-07-19 2023-03-28 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
US11062486B2 (en) * 2019-10-21 2021-07-13 Siemens Medical Solutions Usa, Inc. Methods and apparatus for deep learning based data transfer between imaging systems
CN111178401B (zh) * 2019-12-16 2023-09-12 上海航天控制技术研究所 一种基于多层对抗网络的空间目标分类方法
US11348243B2 (en) 2020-01-24 2022-05-31 GE Precision Healthcare LLC Systems and methods for medical image style transfer using deep neural networks
CN111340214B (zh) * 2020-02-21 2021-06-08 腾讯科技(深圳)有限公司 对抗攻击模型的训练方法及装置
US20220076100A1 (en) 2020-09-10 2022-03-10 Mitsubishi Electric Research Laboratories, Inc. Multi-Dimensional Deep Neural Network
US20220151567A1 (en) * 2020-11-17 2022-05-19 Siemens Healthcare Gmbh Joint assessment of myocardial strain and intracardiac blood flow
JP6856965B1 (ja) * 2020-11-27 2021-04-14 株式会社ネフロック 画像出力装置及び画像出力方法
KR20220107575A (ko) * 2021-01-25 2022-08-02 삼성전자주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
US11341699B1 (en) * 2021-03-09 2022-05-24 Carmax Enterprise Services, Llc Systems and methods for synthetic image generation
US20240161254A1 (en) * 2021-03-25 2024-05-16 Sony Semiconductor Solutions Corporation Information processing apparatus, information processing method, and program
JP7515208B2 (ja) 2021-06-30 2024-07-12 株式会社ラディウス・ファイブ 画像表示システム及びプログラム
CN113506222B (zh) * 2021-07-30 2024-03-01 合肥工业大学 一种基于卷积神经网络的多模态图像超分辨方法
US20240221260A1 (en) * 2022-12-29 2024-07-04 Samsung Electronics Co., Ltd. End-to-end virtual human speech and movement synthesization

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876320B2 (en) 2004-11-25 2011-01-25 Nec Corporation Face image synthesis method and face image synthesis apparatus

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654018B1 (en) 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US7028271B2 (en) * 2002-11-06 2006-04-11 Canon Kabushiki Kaisha Hierarchical processing apparatus
US20040130546A1 (en) * 2003-01-06 2004-07-08 Porikli Fatih M. Region growing with adaptive thresholds and distance function parameters
US7831108B2 (en) * 2006-12-13 2010-11-09 Adobe Systems Incorporated Universal front end for masks, selections, and paths
KR101601475B1 (ko) * 2014-08-25 2016-03-21 현대자동차주식회사 야간 주행 시 차량의 보행자 검출장치 및 방법
US10417525B2 (en) * 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
US9922272B2 (en) * 2014-09-25 2018-03-20 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
CN104408483B (zh) * 2014-12-08 2017-08-25 西安电子科技大学 基于深度神经网络的sar纹理图像分类方法
CN105938558B (zh) * 2015-03-06 2021-02-09 松下知识产权经营株式会社 学习方法
US9514391B2 (en) * 2015-04-20 2016-12-06 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
CN105184303B (zh) * 2015-04-23 2019-08-09 南京邮电大学 一种基于多模态深度学习的图像标注方法
CN104899921B (zh) * 2015-06-04 2017-12-22 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9824304B2 (en) * 2015-10-06 2017-11-21 Adobe Systems Incorporated Determination of font similarity
CN105512661B (zh) * 2015-11-25 2019-02-26 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876320B2 (en) 2004-11-25 2011-01-25 Nec Corporation Face image synthesis method and face image synthesis apparatus

Also Published As

Publication number Publication date
DE112017002799B4 (de) 2023-03-02
US20170351935A1 (en) 2017-12-07
JP2019510325A (ja) 2019-04-11
CN109196526B (zh) 2021-09-28
CN109196526A (zh) 2019-01-11
WO2017209307A1 (en) 2017-12-07
JP6639700B2 (ja) 2020-02-05
US9971958B2 (en) 2018-05-15

Similar Documents

Publication Publication Date Title
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102018006247A1 (de) Digitalbildvervollständigung unter Verwendung des Deep Learning
DE112016004266B4 (de) Verfahren zur Gesichtsausrichtung
DE112019005750T5 (de) Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102019005851A1 (de) Objektdetektion in Bildern
DE102018111905A1 (de) Domänenspezifische Sprache zur Erzeugung rekurrenter neuronaler Netzarchitekturen
DE102018000068A1 (de) Vorhersagen von mehreren Stellungen auf Grundlage eines grafischen Bildes
DE102017010210A1 (de) Bild-Matting mittels tiefem Lernen
DE102018130924A1 (de) Systeme und Verfahren zur dynamischen Gesichtsanalyse mittels eines rekurrenten neuronalen Netzes
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
DE102020131265A1 (de) Segmentieren von video-rahmen unter verwendung eines neuronalen netzes mit verringerter auflösung und von masken aus vorhergehenden rahmen
DE102019001911A1 (de) Aufbauen von neuen Zeichensatz-Bildzeichen aus Teilbetrachtungen
DE102015209822A1 (de) Erfassungseinrichtung, Erfassungsprogramm, Erfassungsverfahren, mit Erfassungseinrichtung ausgerüstetes Fahrzeug, Parameterberechnungseinrichtung, Parameter berechnende Parameter, Parameterberechnungsprogramm, und Verfahren zum Berechnen von Parametern
DE102019006149A1 (de) Begrenzungsbewusste Objektentfernung und Contentfüllung
DE112019001044T5 (de) Verfahren und vorrichtung für maschinelles lernen, programm, gelerntes modell und diskriminiervorrichtung
DE102019102866A1 (de) Identifizierung eines Herstellungsteils unter Verwendung von Computervision und Maschinenlernen
DE112016005905T5 (de) Verfahren und System zum Verschmelzen erfasster Messungen
DE102019122402A1 (de) Das klassifizieren von zeitreihenbilddaten
DE112017000669T5 (de) Semantische Segmentierung auf der Grundlage einer globalen Optimierung
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
DE112020005584T5 (de) Verdeckung berücksichtigende Innenraumszenenanalyse
DE102021124769A1 (de) Latente-variable generatives modell mit einem rauschkontrastgebenden prior
DE102022201780A1 (de) Visuelles Analysesystem zum Bewerten, Verstehen und Verbessern tiefer neuronaler Netze
DE102021203021A1 (de) Semantisch konsistente erweiterte trainingsdaten zur ampelerkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009460000

Ipc: G06V0030180000

R016 Response to examination communication
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06V0030180000

Ipc: G06V0010820000

R018 Grant decision by examination section/examining division
R020 Patent grant now final