DE112017002799T5

DE112017002799T5 - Verfahren und system zum generieren multimodaler digitaler bilder

Info

Publication number: DE112017002799T5
Application number: DE112017002799.3T
Authority: DE
Inventors: Ming-Yu Liu; Oncel Tuzel
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-06-01
Filing date: 2017-05-24
Publication date: 2019-03-14
Anticipated expiration: 2037-05-25
Also published as: DE112017002799B4; US20170351935A1; JP2019510325A; CN109196526B; CN109196526A; WO2017209307A1; JP6639700B2; US9971958B2

Abstract

Ein computerimplementiertes Verfahren generiert ein multimodales digitales Bild durch Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, um eine erste Modalität des digitalen Bildes zu erzeugen, und Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, um eine zweite Modalität des digitalen Bildes zu erzeugen. Eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks sind identisch mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks. Außerdem weist zumindest eine Schicht in dem ersten neuronalen Netzwerk Parameter auf, die mit Parametern einer korrespondierenden Schicht in dem zweiten neuronalen Netzwerk identisch sind, und zumindest eine Schicht in dem ersten neuronalen Netzwerk weist Parameter auf, die sich von Parametern einer korrespondierenden Schicht in dem zweiten neuronalen Netzwerk unterscheiden.

Description

[Technisches Gebiet]
Die vorliegende Erfindung bezieht sich im Allgemeinen auf Bildsynthese und insbesondere auf Generieren multimodaler digitaler Bilder unter Verwendung von neuronalen Netzwerken.
[Hintergrund zum Stand der Technik]
Die Paarbildgenerierung bezieht sich auf das Generieren eines Paares von korrespondierenden Bildern in zwei verschiedenen Modalitäten, wie beispielsweise einem Gesicht mit unterschiedlichen Attributen, einem Zeichen in verschiedenen Schriftarten oder einem Farbbild und dem korrespondierenden Tiefenbild. Die multimodale Bildgenerierung bezieht sich auf das Generieren eines Paares oder mehrerer korrespondierender Bilder verschiedener Modalitäten. Die Generierung multimodaler Bilder hat ein breites Anwendungsspektrum. So können beispielsweise die multimodalen Bilder verwendet werden, um neue Paare von korrespondierenden Bildern für Filme und Computerspiele zu rendern. Ein in der US 7,876,320 beschriebenes Verfahren synthetisiert beispielsweise zwei oder mehr Gesichtsbilder, oder zumindest ein Gesichtsbild und eine Gesichtsgrafik oder eine Gesichtsanimation, um dadurch ein fiktives Gesichtsbild zu erzeugen.
Eine Reihe von Verfahren verwenden Eins-zu-Eins-Korrespondenzen zwischen Bildern in verschiedenen Modalitäten, um ein multimodales digitales Bild zu generieren. Beispiele für diese Verfahren sind ein tiefes multimodales Boltzmann-Verfahren und ein gekoppeltes Wörterbuch-Lernverfahren. Einige Verfahren können physikalische Modelle verwenden, um korrespondierende Bilder in den zwei verschiedenen Modalitäten, wie Bildsuperauflösung oder Bildunschärfebeseitigung, zu erzeugen. Im Allgemeinen ist es jedoch schwierig, die Eins-zu-Eins-Korrespondenzen zwischen Bildern in verschiedenen Modalitäten zu bestimmen.
Dementsprechend besteht ein Bedarf, ein multimodales digitales Bild zu generieren, ohne die Eins-zu-Eins-Korrespondenz zwischen verschiedenen Modalitäten in den Trainingsdaten zugrundezulegen.
[Zusammenfassung der Erfindung]
Einige Ausführungsformen der Erfindung stellen eine Reihe von neuronalen Netzwerken bereit, die gemeinsam trainiert wurden, um verschiedene Modalitäten eines digitalen Bildes zu erzeugen. Zum Beispiel stellt eine Ausführungsform eine Reihe von neuronalen Netzwerken bereit, die eine Gruppe von korrespondierenden Bildern in verschiedenen Modalitäten rendern können, ohne dass eine Eins-zu-Eins-Korrespondenz zwischen verschiedenen Modalitäten des digitalen Bildes vorhanden ist.
Einige Ausführungsformen basieren auf der Erkenntnis, dass, wenn neuronale Netzwerke unabhängig voneinander trainiert werden, um ein digitales Bild zu generieren, die generierten digitalen Bilder zueinander nicht in Beziehung stehen. Durch Auferlegen, z.B. während des gemeinsamen Trainings, einer Gewichtungsteilungs-Randbedingung auf die neuronalen Netzwerke, können die neuronalen Netzwerke jedoch trainiert werden, um ein multimodales digitales Bild zu generieren. So erzeugt beispielsweise eine Ausführungsform ein multimodales digitales Bild unter Verwendung eines ersten neuronalen Netzwerks, das trainiert ist, eine erste Modalität des digitalen Bildes zu generieren, und eines zweiten neuronalen Netzwerks, das trainiert ist, eine zweite Modalität des digitalen Bildes zu generieren. Die Struktur und Anzahl der Schichten des ersten neuronalen Netzwerks ist identisch mit der Struktur und Anzahl der Schichten des zweiten neuronalen Netzwerks. Außerdem weist zumindest eine Schicht im ersten neuronalen Netzwerk Parameter auf, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und zumindest eine Schicht im ersten neuronalen Netzwerk weist Parameter auf, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden.
Auf diese Weise erzwingen die identische Struktur sowie die Anzahl und der identische Wert einiger Parameter der neuronalen Netzwerke eine gewisse Gemeinsamkeit in den generierten digitalen Bildern, während die unterschiedlichen Werte anderer Parameter der neuronalen Netzwerke die Unterschiede in den Modalitäten erzwingen. Zum Beispiel haben einige Schichten des ersten und des zweiten neuronalen Netzwerks in einer Ausführungsform identische Parameter, um übergeordnete Merkmale des digitalen Bildes zu generieren, während die anderen Schichten des ersten und des zweiten neuronalen Netzwerks unterschiedliche Parameter aufweisen, um untergeordnete Merkmale des digitalen Bildes zu generieren. Typischerweise werden die untergeordneten Merkmale von den übergeordneten Merkmalen abgeleitet. So können beispielsweise die übergeordneten Merkmale eine Beschreibung der Typen und Konfigurationen der Objekte im Bild sein, und die untergeordneten Merkmale können Kanten der Objekte sein, die basierend auf den Typen und Konfigurationen der Objekte bestimmt wurden.
Dementsprechend offenbart eine Ausführungsform ein computerimplementiertes Verfahren zum Generieren eines multimodalen digitalen Bildes. Das Verfahren umfasst das Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, um eine erste Modalität des digitalen Bildes zu generieren; und das Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, um eine zweite Modalität des digitalen Bildes zu generieren, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch ist mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks sind, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die identisch sind mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden. Die Schritte des Verfahrens werden unter Verwendung eines Prozessors durchgeführt.
Eine weitere Ausführungsform offenbart ein System zum Generieren eines multimodalen digitalen Bildes, aufweisend zumindest einen nichtflüchtigen computerlesbaren Speicher, der ein erstes neuronales Netzwerk speichert, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und ein zweites neuronales Netzwerk speichert, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch sind mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden; und einen Prozessor zum Generieren des multimodalen digitalen Bildes durch Verarbeiten eines Vektors mit dem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und Verarbeiten des Vektors mit dem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, und das multimodalen digitale Bild im Speicher zu speichern.
Noch eine weitere Ausführungsform offenbart ein nichtflüchtiges computerlesbares Medium mit darauf gespeicherten Anweisungen, die bei Ausführung durch einen Prozessor die Schritte durchführen, umfassend Verarbeitung eines Vektors mit einem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen; und Verarbeitung des Vektors mit einem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch sind mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden.
Figurenliste

1 ist ein Blockdiagramm eines Computersystems zum Generieren eines multimodalen digitalen Bildes gemäß einigen Ausführungsformen der Erfindung.
2A ist ein Blockdiagramm eines computerimplementierten Verfahrens zum Generieren eines multimodalen digitalen Bildes gemäß einer Ausführungsform.
2B ist eine exemplarische schematische Darstellung der Struktur der neuronalen Netzwerke zur Generierung multimodaler digitaler Bilder gemäß einer Ausführungsform der Erfindung.
3 ist ein Blockdiagramm eines neuronalen Netzwerks, das von einigen Ausführungsformen verwendet wird.
4A ist eine schematische Darstellung eines gekoppelten generativen gegnerischen Netzwerk-(CoGAN)-Rahmens gemäß einigen Ausführungsformen.
4B ist ein Beispiel für die Gewichtsteilungs-Randbedingungen im CoGAN, die durch einige Ausführungsformen auferlegt werden.
5A ist eine schematische Darstellung des Trainings neuronaler Netzwerke, das von einigen Ausführungsformen verwendet wird.
5B ist ein Pseudocode des Trainings neuronaler Netzwerke gemäß einer Ausführungsform.
5C ist ein Blockdiagramm eines Trainingssystems gemäß einer Ausführungsform.
6A ist ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler digitaler Bilder von handgeschriebenen Ziffern gemäß einer Ausführungsform.
6B ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 6A generiert werden.
6C ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 6A generiert werden.
7A ist ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler Gesichtsbilder mit unterschiedlichen Attributen gemäß einer Ausführungsform.
7B ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 7A generiert werden.
7C ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 7A generiert werden.
7D ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 7A generiert werden.
8A ist ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler digitaler Bilder, umfassend Farbbilder und ihre korrespondierenden Tiefenbilder gemäß einer Ausführungsform.
8B ist eine Visualisierung multimodaler digitaler Bilder, die durch das neuronale Netzwerk gemäß 8A generiert werden.
9 ist ein Beispiel für eine Modalitätentransformation gemäß einigen Ausführungsformen.

[Beschreibung der Ausführungsformen]
1 zeigt ein Blockdiagramm eines Computersystems 100 zum Generieren eines multimodalen digitalen Bildes gemäß einigen Ausführungsformen der Erfindung. Wie hierin verwendet, sind das multimodale digitale Bild strukturelle digitale Daten mit unterschiedlichen Modalitäten. So kann beispielsweise das multimodale digitale Bild ein erstes Bild mit einer ersten Modalität und ein zweites Bild mit einer zweiten Modalität umfassen. Verschiedene Modalitäten können verschiedene Stile oder Typen von Daten repräsentieren, die das digitale Bild bilden. Beispiele für verschiedene digitale Bilder mit unterschiedlichen Modalitäten sind Farbbilder, Tiefenbilder und Wärmebilder. In einigen Ausführungsformen sind das digitale Bild strukturelle digitale Daten von einem Format oder einer Kombination verschiedener Formate. So kann beispielsweise das digitale Bild eines oder eine Kombination aus einem Bild, einem Video, einem Text und einem Ton umfassen.
Die unterschiedlichen Modalitäten des digitalen Bildes bilden in der Regel unterschiedliche Bilder unterschiedlicher Typen, die gleiche oder zumindest ähnliche Strukturinformationen darstellen. Zu diesem Zweck werden die Bilder verschiedener Modalitäten, die das multimodale digitale Bild bilden, miteinander in Beziehung gesetzt. So kann beispielsweise die erste Modalität des digitalen Bildes ein erstes Bild eines in einem Stil dargestellten Textes sein, und die zweite Modalität des digitalen Bildes kann ein zweites Bild des gleichen Textes sein, das jedoch in einem anderen Stil dargestellt wird. So kann beispielsweise die erste Modalität des digitalen Bildes ein erstes Bild eines Gesichts einer eine Brille tragenden Person sein, und die zweite Modalität des digitalen Bildes kann ein zweites Bild des gleichen Gesichts der Person sein, die die Brille nicht trägt. So kann beispielsweise die erste Modalität des digitalen Bildes ein Bild sein, das Farbinformationen für jedes Pixel enthält, um eine Szene darzustellen, und die zweite Modalität des digitalen Bildes Tiefeninformationen für jedes Pixel enthält, um die gleiche Szene darzustellen.
Das Computersystem 100 umfasst einen Prozessor 102, der konfiguriert ist, gespeicherte Anweisungen auszuführen, sowie einen Speicher 104, der Anweisungen speichert, die durch den Prozessor ausführbar sind. Der Prozessor 102 kann ein Einkernprozessor, ein Mehrkernprozessor, ein Computercluster oder eine beliebige Anzahl anderer Konfigurationen sein. Der Speicher 104 kann einen Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder andere geeignete Speichersysteme aufweisen. Der Prozessor 102 ist über einen Bus 106 mit einer oder mehreren Ein- und Ausgabeeinrichtungen verbunden.
Das Computersystem 100 umfasst einen neuronales-Netzwerk-Bildgenerator (NNIG) 114 zum Generieren der multimodalen digitalen Bilder. Der NNIG 114 wird unter Verwendung einer neuronalen Netzwerkgruppe implementiert, z.B. einem ersten neuronalen Netzwerk und einem zweiten neuronalen Netzwerk, die gemeinsam trainiert sind, um das multimodale digitale Bild zu generieren. So können beispielsweise das erste und das zweite neuronale Netzwerk die gleiche Eingabe akzeptieren und das multimodale digitale Bild generieren, wobei das erste neuronale Netzwerk die erste Modalität des digitalen Bildes generiert und das zweite neuronale Netzwerk die zweite Modalität des digitalen Bildes generiert. Der NNIG 114 kann im Speicher des Systems 100 gespeichert werden.
Das Computersystem 100 kann auch eine Speichereinrichtung 108 umfassen, die zum Speichern von zusätzlichen Daten und/oder Softwaremodulen, die von dem NNIG 114 verwendet werden, ausgelegt ist. So kann beispielsweise die Speichereinrichtung 108 Eingabevektoren 110 speichern, die vom NNIG 114 zur Generieren des multimodalen digitalen Bildes verwendet werden. Zusätzlich oder alternativ kann die Speichereinrichtung 108 einen Vektorgenerator 112 zum Generieren der Vektoren 110 speichern. So kann beispielsweise der Vektorgenerator 112 unter Verwendung des Prozessors 102 oder einem anderen geeigneten Prozessor implementiert werden. Die Vektoren 110 können unterschiedliche oder sogar beliebige Werte aufweisen. So kann beispielsweise der Vektorgenerator 112 Elemente des Vektors mit Hilfe einer probabilistischen Verteilung zufällig generieren. Die Speichereinrichtung 108 kann auch die Struktur und die Parameter des NNIG 114 speichern. Die Speichereinrichtung 108 kann eine Festplatte, ein optisches Laufwerk, ein Daumen-Laufwerk, eine Gruppe von Laufwerken oder eine beliebige Kombination davon aufweisen.
Eine Mensch-Maschine-Schnittstelle 116 innerhalb des Computersystems 100 kann das System mit einer Tastatur 118 und einer Zeigeeinrichtung 120 verbinden, wobei die Zeigeeinrichtung 120 unter anderem eine Maus, einen Trackball, ein Touchpad, einen Joystick, einen Trackpoint, einen Zeigerstift oder einen Touchscreen umfassen kann. Das Computersystem 100 kann über den Bus 106 mit einer Anzeigeschnittstelle 122 verbunden werden, die ausgelegt ist, das System 100 mit einer Anzeigeeinrichtung 124 zu verbinden, wobei die Anzeigeeinrichtung 124 unter anderem einen Computermonitor, eine Kamera, ein Fernsehgerät, einen Projektor oder eine mobile Einrichtung umfassen kann.
Das Computersystem 100 kann auch mit einer Abbildungsschnittstelle 126 verbunden sein, die geeignet ist, das System mit einer Abbildungseinrichtung 128 zu verbinden. Die Abbildungseinrichtung 128 kann eine Kamera, einen Computer, einen Scanner, eine mobile Einrichtung, eine Webcam oder eine beliebige Kombination davon umfassen. Eine Druckerschnittstelle 130 kann auch über den Bus 106 mit dem Computersystem 100 verbunden sein, und ist ausgelegt, das Computersystem 100 mit einer Druckeinrichtung 132 zu verbinden, wobei die Druckeinrichtung 132 unter anderem einen Flüssigkeitstintenstrahldrucker, einen Festtintendrucker, einen kommerziellen Großdrucker, einen Thermodrucker, einen UV-Drucker oder einen Farbsublimationsdrucker umfassen kann. Eine Netzwerkschnittstellensteuerung 134 ist ausgelegt, das Computersystem 100 über den Bus 106 mit einem Netzwerk 136 zu verbinden. Das multimodale digitale Bild kann auf einer Anzeigeeinrichtung, einer Abbildungseinrichtung und/oder einer Druckeinrichtung gerendert werden. Das multimodale digitale Bild kann über einen Kommunikationskanal des Netzwerks 136 übertragen und/oder im Speichersystem 108 des Computers zur Speicherung und/oder Weiterverarbeitung gespeichert werden.
2A zeigt ein Blockdiagramm eines computerimplementierten Verfahrens zum Generieren eines multimodalen digitalen Bildes gemäß einer Ausführungsform der Erfindung. Das Verfahren verarbeitet 220 einen Vektor 210 mit einem ersten neuronalen Netzwerk 240, um eine erste Modalität 225 des digitalen Bildes zu erzeugen, und verarbeitet 230 den Vektor 210 mit einem zweiten neuronalen Netzwerk 250, um eine zweite Modalität 235 des digitalen Bildes zu erzeugen. Das Verfahren kann mit dem NNIG 114 durchgeführt und mit einem Prozessor des Computersystems 100, z.B. dem Prozessor 102, ausgeführt werden.
Einige Ausführungsformen basieren auf der Erkenntnis, dass, wenn neuronale Netzwerke unabhängig voneinander trainiert werden, um ein Bild zu generieren, die generierten Bilder nicht zueinander in Beziehung stehen. Indem jedoch eine Gewichtungsverteilungs-Randbedingung in den neuronalen Netzwerken auferlegt wird und ausreichende Trainingsbilder in jeder Modalität vorhanden sind, können die neuronalen Netzwerke gemeinsam trainiert werden, um ein multimodales digitales Bild zu generieren.
2B zeigt eine exemplarische schematische Darstellung der Struktur des ersten neuronalen Netzwerks 240, das zur Erzeugung einer ersten Modalität des digitalen Bildes trainiert ist, und der Struktur des zweiten neuronalen Netzwerks 250, das zur Erzeugung einer zweiten Modalität des digitalen Bildes trainiert ist. Die Struktur, z.B. die Anzahl der Schichten und die Verbindung zwischen den Schichten, des ersten neuronalen Netzwerks sind identisch mit der Struktur des zweiten neuronalen Netzwerks. Zusätzlich weist zumindest eine Schicht im ersten neuronalen Netzwerk Parameter auf, die mit den Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind. Allerdings weist zumindest eine Schicht im ersten neuronalen Netzwerk Parameter auf, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden. Im Beispiel von 2B, sind die Schichten 231, 232, 233, 234, 235 und 236 dargestellt. Die korrespondierenden Schichten 231, 232 und 233 haben die gleichen Parameter, während die korrespondierenden Schichten 234, 235 und 246 unterschiedliche Parameter haben.
Typischerweise sind die Schichten mit identischen Parametern die obersten Schichten, um die übergeordneten Merkmale der Bilder aufzuerlegen. So werden beispielsweise die beiden Netzwerke gemeinsam trainiert und gleichzeitig identische Parameter für mehrere obere Schichten des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks umgesetzt. Auf diese Weise erzwingen die identischen strukturidentischen Parameter der Netzwerke eine gewisse Gemeinsamkeit in den generierten Bildern, während die unterschiedlichen Parameter von zumindest einigen Schichten der Netzwerke die unterschiedlichen Modalitäten erzwingen. So erzeugen beispielsweise in einer Ausführungsform die Schichten des ersten und des zweiten neuronalen Netzwerks, die identische Parameter aufweisen, übergeordnete Merkmale des digitalen Bildes, und die Schichten des ersten und des zweiten neuronalen Netzwerks, die unterschiedliche Parameter aufweisen, erzeugen untergeordnete Merkmale des digitalen Bildes. Typischerweise werden die untergeordneten Merkmale von den übergeordneten Merkmalen abgeleitet. So können beispielsweise die übergeordneten Merkmale eine Beschreibung der Typen und Konfigurationen der Objekte im Bild sein, und die untergeordneten Merkmale können Kanten der Objekte sein, die basierend auf den Typen und Konfigurationen der Objekte bestimmt werden.
Gekoppelte generative gegnerische Netzwerke
Einige Ausführungsformen der Erfindung verwenden einen gekoppeltes-generatives-gegnerisches-Netzwerk-(CoGAN)-Rahmen, um den NNIG 114 zu trainieren, der das multimodale digitale Bild rendern kann, ohne dass eine Eins-zu-Eins-Korrespondenz im Trainingsdatensatz vorhanden ist. Der Rahmen basiert auf den generativen gegnerischen Netzwerken (GAN) zur Bildgenerierung. Der CoGAN-Rahmen umfasst mindestens ein Paar von GANs.
Jedes GAN ist darauf trainiert, Bilder in einer Domäne zu generieren, und der Rahmen des CoGAN zwingt jedes GAN dazu, verschiedene Bilder zu generieren, die mindestens in einer Hinsicht miteinander in Beziehung stehen. Indem beispielsweise die Schichten, die übergeordnete Informationen in den zwei GANs dekodieren, gezwungen werden, die Netzwerkverbindungsgewichtungen zu teilen, dekodieren die zwei GANs die übergeordnete Semantik auf die gleiche Weise. Dann bilden die Schichten, die untergeordnete visuelle Informationen dekodieren, die gemeinsame Semantik auf Bilder verschiedener Modalitäten ab, um die diskriminativen Teilnetzwerke für jede Modalität zu verwirren. Durch Erzwingen einer Gewichtungsteilungs-Randbedingung im generativen Teilnetzwerk und vorausgesetzt, dass ausreichende Trainingsbilder in jeder Domäne vorhanden sind, wird das CoGAN trainiert, um die Korrespondenz in den verschiedenen Modalitäten zu erwerben.
Zu diesem Zweck werden in einigen Ausführungsformen mindestens ein oder beide des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks unter Verwendung des gegnerischen Trainingsverfahrens trainiert. So können beispielsweise ein erstes generatives Teilnetzwerk und ein erstes diskriminatives Teilnetzwerk des ersten neuronalen Netzwerks sowie ein zweites generatives Teilnetzwerk und ein zweites diskriminatives Teilnetzwerk des zweiten neuronalen Netzwerks gemeinsam trainiert werden, um eine Minimax-Zielfunktion zu minimieren.
Generative gegnerische Netzwerke
3 zeigt ein Blockdiagramm eines GAN, das von einigen Ausführungsformen zum Trainieren des NNIG 114 verwendet wird. Der GAN-Rahmen umfasst zwei Teilnetzwerke, ein generatives Teilnetzwerk 301 und ein diskriminatives Teilnetzwerk 302. Das Ziel des generativen Teilnetzwerks 301 ist es, aus einer zufälligen Eingabe 305, z.B. dem Vektor 210, Bilder 300 zu synthetisieren oder zu erzeugen, die Trainingsbildern 310 ähneln. Das Ziel des diskriminativen Teilnetzwerks 302 ist es, die Bilder 310 von synthetisierten Bildern 300 zu unterscheiden 303. Sowohl das generative als auch das diskriminative Teilnetzwerk können als mehrschichtige Perzeptren implementiert werden, d.h. als vorwärtsgerichtetes neuronales Netzwerk oder mehrschichtige faltende neuronale Netzwerke.
Formal betrachtet sei angenommen, dass D_GAN der Trainingsdatensatz ist, wobei jede Probe, x aus einer Datenverteilung entnommen ist, x:p_X. Es sei angenommen, dass z eine mehrdimensionale gleichmäßige Verteilung d ist. In einer Ausführungsform ist z aus einer mehrdimensionalen gleichmäßigen Verteilung entnommen. Alternative Ausführungsformen verwenden unterschiedliche Verteilungen, wie die mehrdimensionale normale Verteilung. Es sei angenommen, dass g und f das generative bzw. das diskriminative Teilnetzwerk sind. Die Funktion g nimmt z als Eingabe und gibt eine Zufallszahl g(z) aus, die die gleiche Stütze hat wie x . Die Verteilung von g(z) sei als p_G bezeichnet. Die Funktion f schätzte die Probabilität, dass eine Eingabe aus p_X entnommen wird. Insbesondere ist f(x) = 1, wenn x ist aus p_X und f(x) = 0, wenn x ist aus p_G .
Analog dazu entspricht dar GAN-Rahmen einem Minimax-Zweispieler-Spiel, und die generativen und diskriminativen Teilnetzwerke können gemeinsam trainiert werden durch Lösen von: $max_{g} min_{f} V_{GAN} (f, g)$
wobei die Wertfunktion V_GAN gegeben ist durch $V_{GAN} (f, g) = E_{x : p_{X}} [- log f (x)] + E_{z : p_{Z}} [- log (1 - f (g (z)))] .$
Ein Backpropagation-Algorithmus mit stochastischem Gradientenabstieg wird verwendet, um die Netzwerke g und f zu trainieren. In einigen Ausführungsformen wird Gleichung (1) durch Alternieren der folgenden zwei Gradientenaktualisierungsschritte gelöst:

Schritt 1: $θ_{f}^{t + 1} = θ_{f}^{t} - λ^{t} \nabla_{θ_{f}} V_{G A N} (f^{t}, g^{t})$
Schritt 2: $θ_{g}^{t + 1} = θ_{g}^{t} + λ^{t} \nabla_{θ_{g}} V_{G A N} (f^{t + 1}, g^{t})$

θ_f

θ_g

Gegeben ausreichende Kapazität von f und g und ausreichende Trainingswiederholungen, konvergiert die Verteilung p_G zu p_X . Das heißt, aus einem zufälligen Anfangswert, z, kann das Netzwerk g ein Bild synthetisieren, g(z), das ähnlich zu denen ist, die aus einer echten Datenverteilung, p_X , entnommen wurden. Zu diesem Zweck kann das generative Teilnetzwerk 301 einen Teil des NNIG 114 bilden.
Gekoppelte Generative Adversarial Nets, generative gegnerische Netze
4A zeigt den CoGAN-Rahmen gemäß einigen Ausführungsformen. Das CoGAN umfasst ein Paar generative gegnerische Netzwerke: GAN1 und GAN2. Jedes der generativen gegnerischen Netzwerke hat ein generatives Teilnetzwerk, das die Bilder synthetisieren kann, und ein diskriminatives Teilnetzwerk, das klassifizieren kann, ob ein Eingangssignal ein reales Bild oder ein synthetisiertes Bild ist. Die generativen Teilnetzwerke für GAN1 und GAN2 sind durch g₁ 4011 und g₂ 4012 bezeichnet, während die diskriminativen Teilnetzwerke für GAN1 und GAN2 durch f₁ 4021 and f₂ 4022 bezeichnet sind. Die Teilnetzwerke können als mehrschichtige Perzeptren implementiert werden.
Das generative Teilnetzwerk 4011 wird trainiert, um aus einem Eingabevektor 305 Bilder 3001 in der ersten Modalität zu erzeugen und das generative Teilnetzwerk 401 wird trainiert, um aus dem Eingabevektor 305 Bilder 3002 in der zweiten Modalität zu erzeugen. Um das Training zu erleichtern, unterscheidet 4031 das diskriminative Teilnetzwerk 4021 die Bilder 3001 von den Trainingsbildern der ersten Modalität 311. Ebenso unterscheidet 4032 das diskriminative Teilnetzwerk 4022 die Bilder 3002 von den Trainingsbildern der ersten Modalität 312.
4B zeigt ein Beispiel für die Gewichtungsteilungs-Randbedingungen im gekoppelten generativen gegnerischen Netzwerk. Im CoGAN-Rahmen sind die Gewichtungen der unteren Schichten 420 von generativen Teilnetzwerken g₁ and g₂ , d.h. der Schichten, die übergeordneten semantischen Informationen entsprechen, darauf beschränkt, identische Gewichtungen aufzuweisen, d.h. die identischen Parameter. In diesem Beispiel werden die Gewichtungen der oberen Schichten 410 entsprechend den übergeordneten semantischen Informationen der diskriminativen Teilnetzwerke f₁ und f₂ geteilt.
Insbesondere werden die generativen und diskriminativen Teilnetzwerke meist oder sogar ausschließlich während der Trainingsphase genutzt. Nachdem das generative Teilnetzwerk trainiert wurde, kann das diskriminative Teilnetzwerk verworfen werden, und das generative Teilnetzwerk wird zum ersten 240 oder zweiten 250 neuronalen Netzwerk.
Dieses Gewichtungsteilungsschema zwingt GAN1 und GAN2, Paare korrespondierender Bilder zu synthetisieren, wobei die Korrespondenz in dem Sinne definiert ist, dass zwei Bilder dieselben übergeordneten semantischen Informationen teilen, aber unterschiedliche untergeordnete Erkennungen aufweisen, wie beispielsweise ein Bild und seine Drehung oder das Gesicht einer Person mit Brille und das Gesicht derselben Person ohne Brille. So kann beispielsweise das CoGAN verwendet werden, um ein Bild und seine Drehung zu synthetisieren oder ein Gesicht mit Brille und das gleiche Gesicht ohne Brille zu synthetisieren. Der CoGAN-Rahmen kann durch einfaches Hinzufügen weiterer GANs erweitert werden, um die gemeinsame Bildgenerierung in mehreren Modalitäten zu ermöglichen.
Generative Teilnetzwerke
Es sei angenommen, dass D_DGAN der Trainingsdatensatz ist, wobei jede Probe entweder aus der Datenverteilung der ersten Modalität, x₁ : p_X
1, oder aus der Datenverteilung der zweiten Modalität, x₂:p_X
2 entnommen ist. Es sei angenommen, dass g₁ und g₂ die generativen Teilnetzwerke des GAN1 und GAN2 sind. Die Teilnetzwerke bilden eine zufällige Vektoreingabe z einzeln auf Bildern ab, die die gleiche Stütze aufweisen wie x₁ und x₂ . Die Verteilungen von g₁ (z) und g₁ (z) sind durch P_G
1 und P_G
2 angegeben.
In einer Ausführungsform sind sowohl g₁ als auch g₂ als mehrschichtige Perzeptren implementiert und können ausgedrückt werden als $g_{1} (z) = g_{1}^{(m_{1})} (g_{1}^{(m_{1} - 1)} (\dots g_{1}^{(2)} (g_{1}^{(1)} (z)))), und$
$g_{2} (z) = g_{2}^{(m_{2})} (g_{2}^{(m_{2} - 1)} (\dots g_{2}^{(2)} (g_{2}^{(1)} (z)))),$
wobei $g_{1}^{(i)}$
und $g_{2}^{(i)}$
die i-ten Schichten von g₁ und g₂ sind, und m₁ und m₂ die Anzahl von Schichten in den generativen Teilnetzwerken g₁ und g₂ sind. Es ist darauf hinzuweisen, dass m₁ nicht gleich sein muss wie m₂ . $θ_{g_{1}^{(i)}} und θ_{g_{2}^{(i)}}$
sind zu verwenden, um lernbare Parameter für $g_{1}^{(i)}$
beziehungsweise $g_{2}^{(i)}$
anzugeben.
Durch Schichten von Perzeptrenoperationen dekodieren die generativen Teilnetzwerke allmählich Informationen von abstrakteren Konzepten zu konkreteren Details. Die unteren Schichten dekodieren übergeordnete semantische Informationen und die oberen Schichten dekodieren untergeordnete Detailinformationen. Es ist zu beachten, dass sich dieser Informationsfluss von einem diskriminativen tiefen neuronalen Netzwerk für die Klassifikationsaufgabe unterscheidet. Im diskriminativen Teilnetzwerk extrahieren die unteren Schichten untergeordnete Merkmale, während die oberen Schichten übergeordnete Merkmale extrahieren.
Da korrespondierende Bilder in verschiedenen Modalitäten die gleichen übergeordneten semantischen Informationen teilen, zwingen einige Ausführungsformen die unteren Schichten 420 von g₁ und g₂ , die identische Struktur aufzuweisen und die Gewichtungen zu teilen. Das heißt $θ_{g_{1}^{(i)}} = θ_{g_{2}^{(i)}}, for i = 1,2, \dots, k,$
wobei k die Anzahl der geteilten Schichten ist. Diese Gewichtungssteilungs-Randbedingung erzwingt, dass die übergeordneten Informationen auf die gleiche Weise durch die generativen Netzwerke g₁ und g₂ dekodiert werden. Einige Ausführungsformen stellen keine zusätzlichen Randbedingungen für die oberen Schichten bereit. Die Randbedingungen dürfen lernen, die übergeordneten semantischen Informationen in der für die einzelnen Modalitäten optimalsten Weisen zu materialisieren.
Diskriminatives Teilnetzwerk
Die Ableitung des diskriminativen Teilnetzwerks ist ähnlich wie die für das generative Teilnetzwerk. Es sei angenommen, dass f₁ und f₂ die diskriminativen Teilnetzwerke des GAN1 und GAN2 sind, die als mehrschichtige Perzeptren implementiert sein können: $f_{1} (x_{1}) = f_{1}^{(n_{1})} (f_{1}^{(n_{1} - 1)} (\dots f_{1}^{(2)} (f_{1}^{(1)} (x_{1})))), und$
$f_{2} (x_{2}) = f_{2}^{(n_{2})} (f_{2}^{(n_{2} - 1)} (\dots f_{2}^{(2)} (f_{2}^{(1)} (x_{2})))),$
wobei $f_{1}^{(i)} und f_{2}^{(i)}$
die i-ten Schichten von f₁ und f₂ sind, und n₁ und n₂ die Anzahl von Schichten von f₁ und f₂ sind. $θ_{f_{1}^{(i)}} und θ_{f_{2}^{(i)}}$
sind zu verwenden, um lernbare Parameter für $f_{1}^{(i)} und f_{2}^{(i)}$
anzugeben.
Die diskriminativen Teilnetzwerke bilden ein Eingabebild auf einer Probabilitätsbewertung ab, die die Probabilität schätzt, dass die Eingabe aus den Trainingsdatenverteilungen entnommen ist. Für diese Teilnetzwerke extrahieren die unteren Schichten der diskriminativen Teilnetzwerke untergeordnete Merkmale, während die oberen Schichten übergeordnete Merkmale extrahieren. Da die Eingabebilder die Erkennung der gleichen übergeordneten Semantik in zwei verschiedenen Modalitäten sind, zwingen einige Ausführungsformen die diskriminativen Teilnetzwerke f₁ und f₂ , die gleichen oberen Schichten 410 aufzuweisen, was durch Teilen der Gewichtungen der oberen Schichten der zwei diskriminativen Teilnetzwerke erzielt wird durch $θ_{f_{1}^{(n_{1} - i)}} = θ_{f_{2}^{(n_{2} - i)}}, für i = 0,1, \dots, l - 1,_{_{,}}$
wobei l die Anzahl der geteilten Schichten ist.
Training
Analog dazu entspricht das Training des CoGAN auch einem eingeschränkten Minimax-Spiel, angegeben durch: $max_{g_{1}, g_{2}} min_{f_{1}, f_{2}} V_{DGAN} (f_{1}, f_{2}, g_{1}, g_{2})$
unter der Bedingung $θ_{g_{1}^{(i)}} = θ_{g_{2}^{(i)}}, für i = 1,2, \dots, k$
$θ_{f_{1}^{(n_{1} - i)}} = θ_{f_{2}^{(n_{2} - i)}}, für i = 0,1, \dots, l - 1$
wobei die Wertfunktion V_DGAN ist: $\begin{array}{l} V_{D G A N} (f_{1}, f_{2}, g_{1}, g_{2}) = E_{x_{1} : p_{X_{1}}} [- log f_{1} (x_{1})] \\ + E_{z : p_{Z}} [- log (1 - f_{1} (g_{1} (z)))] + E_{x_{2} : p_{X_{2}}} [- log f_{2} (x_{2})] \\ + E_{z : p_{Z}} [- log (1 - f_{2} (g_{2} (z)))] . \end{array}$
Bei dieser Spielanalogie gibt es zwei Teams und jedes Team hat zwei Spieler. Die generativen Teilnetzwerke g₁ und g₂ bilden ein Team und arbeiten zusammen, um ein Paar korrespondierender Bilder in zwei verschiedenen Modalitäten zu synthetisieren, um die diskriminativen Teilnetzwerke f₁ und f₂ zu verwirren. Andererseits versuchen die diskriminativen Teilnetzwerke, aus der Trainingsdatenverteilung entnommene Bilder in den jeweiligen Modalitäten von den aus den jeweiligen generativen Teilnetzwerken entnommenen Bildern zu unterscheiden. Die Zusammenarbeit wird aus den Gewichtungsverteilungs-Randbedingungen aufgebaut. Ähnlich wie beim GAN-Rahmen kann das Training des generativen und diskriminativen Teilnetzwerks durch den Backpropagation-Algorithmus mit einem alternierenden Gradientenaktualisierungsschema erreicht werden.
Im CoGAN-Spiel gibt es zwei Teams und jedes Team hat zwei Spieler. Die generativen Teilnetzwerke g₁ und g₂ bilden ein Team und arbeiten zusammen, um ein Paar korrespondierender Bilder in zwei verschiedenen Modalitäten zu synthetisieren, um die diskriminativen Teilnetzwerke f₁ und f₂ zu verwirren. Die diskriminativen Teilnetzwerke versuchen, aus der Trainingsdatenverteilung entnommene Bilder in den jeweiligen Modalitäten von den aus den jeweiligen generativen Teilnetzwerken entnommenen Bildern zu unterscheiden. Die Zusammenarbeit wird aus den Gewichtungsverteilungs-Randbedingungen aufgebaut. Ähnlich wie beim GAN-Rahmen kann das Lernen des generativen und diskriminativen Teilnetzwerks durch den Backpropagation-Algorithmus mit alternierender Gradientenaktualisierung erreicht werden.
5A zeigt eine schematische Darstellung des Trainings neuronaler Netzwerke, das von einigen Ausführungsformen der Erfindung verwendet wird. Das Training 510 verwendet einen Trainingssatz aus Bildern 501 und 502 verschiedener Modalitäten, um die Parameter 520 des NNIG zu erzeugen, wobei die Bilder 501 nicht mit den Bildern 502 korrespondieren müssen. Im Allgemeinen umfasst das Training eines künstlichen neuronalen Netzwerks die Anwendung eines Trainingsalgorithmus, manchmal auch als „lernender“ Algorithmus bezeichnet, auf ein künstliches neuronales Netzwerk im Hinblick auf einen Trainingssatz. Ein Trainingssatz kann einen oder mehrere Sätze von Eingaben und einen oder mehrere Sätze von Ausgaben umfassen, wobei jeder Satz von Eingaben mit einem Satz von Ausgaben korrespondiert. Ein Satz von Ausgaben in einem Trainingssatz umfasst einen Satz von Ausgaben, die das künstliche neuronale Netzwerk erzeugen soll, wenn der korrespondierende Satz von Eingaben in das künstliche neuronale Netzwerk eingegeben wird, und das künstliche neuronale Netzwerk dann in einer vorwärts gerichteten Weise betrieben wird. Beim Training des neuronalen Netzwerks werden die Parameter berechnet, z.B. die Gewichtungswerte, die den Verbindungen im künstlichen neuronalen Netzwerk zugeordnet sind.
5B zeigt einen Pseudocode des Trainings 510 gemäß einer Ausführungsform der Erfindung. Während des CoGAN-Trainings werden die Trainingsproben unabhängig von den Randverteilungen entnommen, um nicht Proben aus der gemeinsamen Verteilung zugrundezulegen, bei denen es Eins-zu-eins-Korrespondenzen gibt. Auf diese Weise trainiert das CoGA generative Teilnetzwerke, die verschiedene Modalitäten der digitalen Bilder in Korrespondenz synthetisieren können, ohne jedoch im Voraus über die Korrespondenzen zu verfügen. Die Fähigkeit, die gemeinsame Verteilung aus Randbedingungen zu lernen, kann die Last bei der Trainingsdatensammlung für die Paarbildgenerierung weitgehend verringern, da das Erwerben korrespondierender Bilder auch in zwei verschiedenen Modalitäten sehr schwierig sein kann.
5C zeigt ein Blockdiagramm eines Trainingssystems gemäß einer Ausführungsform der Erfindung. Das Trainingssystem umfasst einen Prozessor, der über einen Bus 22 mit einem Nur-Lese-Speicher (ROM) 24 und einem Speicher 38 verbunden ist. Das Trainingssystem kann auch eine Anzeige 28 aufweisen, um dem Benutzer Informationen zu präsentieren, und eine Vielzahl von Eingabeeinrichtungen aufweisen, umfassend eine Tastatur 26, eine Maus 34 und andere Einrichtungen, die über den Ein-/Ausgabeport 30 verbunden werden können. Andere Eingabeeinrichtungen, wie andere Zeigeeinrichtungen oder Sprachsensoren oder Bildsensoren können ebenfalls verbunden werden. Andere Zeigeeinrichtungen umfassen Tablets, numerische Tastenfelder, Touchscreens, Touchscreen-Überlagerungen, Trackballs, Joysticks, Lichtstifte, Daumenräder usw. Die I/O 30 kann mit Kommunikationsleitungen, Plattenspeichern, Eingabeeinrichtungen, Ausgabeeinrichtungen oder anderen I/O-Ausrüstungen verbunden werden. Der Speicher 38 umfasst einen Anzeigepuffer 72, der Pixelintensitätswerte für einen Anzeigebildschirm enthält. Die Anzeige 28 liest periodisch die Pixelwerte aus dem Anzeigepuffer 72 und zeigt diese Werte auf einem Anzeigebildschirm an. Die Pixelintensitätswerte können Graustufen oder Farben darstellen.
Der Speicher 38 umfasst eine Datenbank 90, den Trainer 82, das NNIG 114 und den Präprozessor 84. Die Datenbank 90 kann die historischen Daten 105, Trainingsdaten und Testdaten 92 beinhalten. Die Datenbank kann auch Ergebnisse aus den Betriebs-, Trainings- oder Zurückhaltemodi der Nutzung des neuronalen Netzwerks enthalten. Diese Elemente wurden bereits ausführlich oben beschrieben.
Ebenfalls im Speicher 38 gezeigt wird das Betriebssystem 74. Beispiele für Betriebssysteme sind AIX, OS/2, DOS, LINUX und WINDOWS. Weitere Elemente, die im Speicher 38 gezeigt sind, sind Einrichtungstreiber 76, die die elektrischen Signale interpretieren, die von Einrichtungen, wie der Tastatur und der Maus, erzeugt werden. Ein Arbeitsspeicherbereich 78 ist ebenfalls im Speicher 38 gezeigt. Der Arbeitsspeicherbereich 78 kann von irgendeinem der im Speicher 38 gezeigten Elemente genutzt werden. Der Arbeitsspeicherbereich kann durch das neuronale Netzwerk 101, den Trainer 82, das Betriebssystem 74 und anderen Funktionen genutzt werden. Der Arbeitsspeicherbereich 78 kann zwischen den Elementen und innerhalb eines Elements aufgeteilt werden. Der Arbeitsspeicherbereich 78 kann für die Kommunikation, Pufferung, Zwischenspeicherung oder Speicherung von Daten während der Ausführung eines Programms genutzt werden.
Beispiele
Die in dieser Offenbarung aufgeführten Beispiele stellen dar, dass das NNIG, das durch einige Ausführungsformen unter Verwendung des CoGAN-Rahmens trainiert wurde, verschiedene Arten von multimodalen digitalen Bildern auf ausschließlich nicht überwachte Weise erzeugen kann, ohne die Eins-zu-Eins-Korrespondenz zwischen verschiedenen Modalitäten in den Trainingsdaten zugrundezulegen.
Generierung von Ziffern
6A zeigt ein Beispiel für die Struktur 610 von generativen und diskriminativen Teilnetzwerken zum Erzeugen multimodaler digitaler Bilder von handschriftlichen Ziffern gemäß einer Ausführungsform. Die Ausführungsform verwendet 60000 Trainingsbilder im Trainingsdatensatz, um CoGANs für die Generierung von Ziffern in zwei verschiedenen Modalitäten zu trainieren, umfassend beispielsweise die Generierung einer Ziffer und ihres Kantenbildes und/oder die Generierung einer Ziffer und ihres Negativbildes. So kann beispielsweise die erste Modalität handgeschriebene digitale Bilder beinhalten, während die zweite Modalität ihre korrespondierenden Kantenbilder beinhalten kann. Die Beispiele für die multimodalen digitalen Bilder, die durch einige Ausführungsformen erzeugt werden, sind in 6B dargestellt. In einem weiteren Beispiel umfassen die zwei Modalitäten die handschriftlichen digitalen Bilder bzw. deren Negativbilder. Die Beispiele für diese multimodalen digitalen Bilder, die durch einige Ausführungsformen generiert werden, sind in 6C dargestellt.
Im Beispiel gemäß 6A hatten die zwei generativen Teilnetzwerke eine identische Struktur; beide hatten 5 Schichten und waren vollständig gefaltet. Die Schrittlängen der gefalteten Schichten waren fraktioniert. Die Teilnetzwerke verwendeten auch die Batch-Normalisierungsschichten und die parametrisierten rektifizierten Lineareinheitenschichten. Die generativen Teilnetzwerke teilen sich die Parameter für alle Schichten mit Ausnahme der letzten gefalteten Schichten, die für die Generierung von Bildausgaben verantwortlich waren. Die diskriminativen Teilnetzwerke verwenden eine Variante des LeNets. Die Eingaben in die diskriminativen Teilnetzwerke sind Batches mit Ausgabebildern aus den generativen Teilnetzwerken und Bildern aus den zwei Trainingsteilsätzen (jeder Pixelwert wird linear von 0 auf 1 normiert). Eine Implementierung verwendet die adaptives-Moment-stochastische-Gradientenabstiegs-(ADAM)-Methode, um den CoGAN für 25000 Iterationen zu trainieren.
Generierung von Gesichtern
7A zeigt ein Beispiel der Struktur 710 von generativen und diskriminativen Teilnetzwerken zur Generierung multimodaler Gesichtsbilder mit unterschiedlichen Attributen gemäß einer Ausführungsform. Die Ausführungsform trainierte die verschiedenen CoGANs, jeweils zum Generieren eines Gesichtsbildes mit einem Attribut und des korrespondierenden Gesichtsbildes ohne das Attribut. Der Trainingsdatensatz umfasste 10177 Personen mit 202599 Gesichtsbildern. Der Trainingsdatensatz umfasste große Posenvarianz und Hintergrundstörungen. Jedes Gesichtsbild hatte 40 Attribute, darunter Brille, Lächeln und blondes Haar. Die Gesichtsbilder mit einem Attribut bildeten die erste Modalität des digitalen Bildes; und diejenigen ohne das Attribut bildeten die zweite Modalität. Es gab keine überlappenden Gesichter in den zwei Modalitäten. In diesem Beispiel waren sowohl die generativen als auch die diskriminativen Teilnetzwerke sieben Schichten tiefe gefaltete neuronale Netzwerke.
7B zeigt Beispiele für die multimodalen Bilder von Gesichtern mit blonden Haaren und dunklen Haaren. 7C zeigt Beispiele für die multimodalen Bilder von lächelnden und nicht lächelnden Gesichtern. 7D zeigt Beispiele für die multimodalen Bilder von Gesichtern mit Brille und ohne Brille.
Einige Implementierungen haben zufällig zwei Punkte im 100-dimensionalen Eingaberaum abgetastet und die Verformung der gerenderten Gesichter als von einem Punkt zum anderen wandernd visualisiert. Insbesondere erzeugte das CoGAN Paare von korrespondierenden Gesichtern, die denen von derselben Person mit unterschiedlichen Attributen ähneln. Während der Bewegung im Raum können die Gesichter schrittweise verformt werden, z.B. von einer Person zur anderen. Solche Verformungen sind für beide Modalitäten, die der CoGAN-Rahmen überprüft hat, konsistent.
Generierung von RGB- und Tiefenbildern
8A zeigt ein Beispiel für eine Struktur von generativen und diskriminativen Teilnetzwerken zum Generieren multimodaler digitaler Bilder mit Farbbildern und den korrespondierenden Tiefenbildern gemäß einer Ausführungsform. Es ist zu beachten, dass die gerenderten Bildpaare zwei verschiedene Modalitäten hatten. Der Trainingsdatensatz enthielt RGBD-Bilder mit registrierten Farb- und Tiefenbildern von 300 Objekten, die von einem Sensor aus verschiedenen Blickwinkeln aufgenommen wurden. Die Farbbilder in der ersten Teilmenge wurden für das Training des GAN1 verwendet, während die Tiefenbilder in der zweiten Teilmenge für das Training des GAN2 verwendet wurden. In den beiden Teilmengen gab es keine korrespondierenden Tiefen- und Farbbilder. Die Bilder im Datensatz haben unterschiedliche Auflösungen.
8B zeigt Beispiele für die multimodalen Farb- und Tiefenbilder. Das gerenderte Tiefenprofil verformte sich gleichmäßig und ähnelt realen Objekten.
Anwendungen
Neben dem Rendern multimodaler digitaler Bilder für die Film- und Spieleproduktion findet der offenbarte CoGAN-Rahmen Anwendung in den Bereichen Modalitätstransformation und Modalitätsanpassung. Es sei angenommen, dass x₁ ein Bild in der ersten Modalität ist. Bei der Modalitätstransformationsaufgabe geht es darum, das korrespondierende Bild in der zweiten Modalität, x₂ zu finden, so dass die gemeinsame Probabilitätsdichte p(x₁ ,x₂ ) maximiert wird. Es ein angenommen, dass L eine Verlustfunktion ist, die die Differenz zwischen zwei Bildern misst. Mit den trainierten generativen Teilnetzwerden g₁ und g₂ kann die Transformation durch eine erste Lösung erreicht werden: $z * = a r g min_{z} L (g_{2} (z), x_{2})$
nach Finden von z*kann g₂ angewendet werden, um das transformierte Bild, x₂=g₂(z), zu erhalten.
9 zeigt ein Beispiel für die Modalitäten-Transformation gemäß einigen Ausführungsformen. So wird beispielsweise das Bild 910 in das Bild 920 transformiert, und das Bild 930 in das Bild 940 transformiert. Diese Beispiele werden unter Verwendung der Euklidischer-Abstands-(L2-Verlust)-Funktion und eines begrenzte-Speicher BFGS-(L-BFGS oder LM-BFGS)-Optimierungsverfahrens berechnet.
Die Modalitäten-Anpassung betrifft die Anpassung eines in einer Modalität trainierten Klassifikators an die andere. Zu diesem Zweck nutzt eine Ausführungsform den CoGAN-Rahmen für eine nicht überwachte Modalitäten-Anpassungsaufgabe. Es sei angenommen, dass D₁ und D₂ die Teilmengen der digitalen Bilder in der ersten Modalität und der zweiten Modalität sind, die in Aufgabe A eingesetzt werden. Es sein angenommen, dass die Kennzeichen (Labels) des Bildes in D₁ bekannt waren aber die Klassenkennzeichen der Bilder in D₂ unbekannt waren. Ein Ziel war es, den unter Verwendung von D₁ trainierten Ziffern-Klassifikator anzupassen, um Ziffern in der zweiten Modalität zu klassifizieren. Das CoGAN kann trainiert werden durch gemeinsames Lösen des Ziffern-Klassifikationsproblems in der ersten Modalität, die in den Bildern und Kennzeichen in D₁ verwendet wird, und des COGAN-Lernproblems, das die Bilder sowohl in D₁ , als auch in D₂ verwendet hat. Dies erzeugt zwei Klassifikatoren: $c_{1} (x_{1}) = c (f_{1}^{(3)} (f_{1}^{(2)} (f_{1}^{(1)} (x_{1})))$
für die erste Modalität und $c_{2} (x_{2}) = c (f_{2}^{(3)} (f_{2}^{(2)} (f_{2}^{(1)} (x_{2})))$
für die zweite Modalität. Es ist darauf hinzuweisen, dass $f_{2}^{(2)} = f_{1}^{(2)} und f_{2}^{(3)} = f_{1}^{(3)}$
ist, aufgrund der Gewichtungsverteilung.
Zusätzlich oder alternativ erzeugt eine Ausführungsform eine Modalitätenverschiebung, indem sie die Testbilder der Mixed National Institute of Standards and Technology Database (MNIST) in ihre korrespondierenden Kantenbilder transformiert. Durch Anwendung von c₁ zur Klassifizierung der Kantenbilder, verschlechterte sich die Klassifizierungsgenauigkeit aufgrund der Modalitätenverschiebung auf 87,0\%. Bei der Anwendung von c₂ zur Klassifizierung der Bilder in der zweiten Modalität konnte jedoch eine Klassifizierungsgenauigkeit von 96,7\% erhalten werden. Die Genauigkeit liegt nahe an derjenigen, die in der ersten Modalität erhalten wurde. Dies war überraschend, da weder Kennzeichen in der zweiten Modalität noch Probenkorrespondenz zwischen den zwei Modalitäten verwendet wurden.
Die oben beschriebenen Ausführungsformen der vorliegenden Erfindung können auf vielfältige Weise umgesetzt werden. So können beispielsweise die Ausführungsformen unter Verwendung von Hardware, Software oder einer Kombination davon realisiert werden. Bei der Implementierung in Software kann der Softwarecode auf jedem geeigneten Prozessor oder jeder Sammlung von Prozessoren ausgeführt werden, unabhängig davon, ob er in einem einzelnen Computer bereitgestellt oder auf mehrere Computer verteilt ist. Solche Prozessoren können als integrierte Schaltungen mit einem oder mehreren Prozessoren in einer Komponente einer integrierten Schaltung implementiert werden. Allerdings kann ein Prozessor mit Hilfe von Schaltungen in jedem geeigneten Format implementiert werden.
Auch die Ausführungsformen der Erfindung können als ein Verfahren ausgeführt werden, für das ein Beispiel bereitgestellt wurde. Die als ein Teil des Verfahrens durchgeführten Handlungen können in jeder geeigneten Weise angeordnet werden. Dementsprechend können Ausführungsformen konstruiert werden, in denen Handlungen in einer anderen Reihenfolge als der dargestellten ausgeführt werden, was auch die gleichzeitige Ausführung einiger Handlungen beinhalten kann, auch wenn sie in illustrativen Ausführungsformen als sequentielle Handlungen dargestellt sind.
Die Verwendung von Ordnungszahlen wie „erste“, „zweite“ in den Ansprüchen zur Änderung eines Anspruchselements bedeutet für sich genommen keine Priorität, Vorrang oder Reihenfolge eines Anspruchselements gegenüber einem anderen oder die zeitliche Reihenfolge, in der Handlungen eines Verfahrens durchgeführt werden, sondern dient lediglich als Bezeichnung zur Unterscheidung eines Anspruchselements mit einer bestimmten Bezeichnung von einem anderen Element mit einer gleichen Bezeichnung (jedoch durch die Verwendung des Ordnungszahlen) zur Unterscheidung der Anspruchselemente.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 7876320 [0002]

Claims

Computerimplementiertes Verfahren zum Generieren eines multimodalen digitalen Bildes, umfassend: Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, um eine erste Modalität des digitalen Bildes zu erzeugen; und Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, um eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks identisch sind, wobei mindestens eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei mindestens eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden, wobei Schritte des Verfahrens unter Verwendung eines Prozessors durchgeführt werden.
Verfahren nach Anspruch 1, ferner umfassend: zufälliges Generieren von Elementen des Vektors unter Verwendung einer probabilistischen Verteilung.
Verfahren nach Anspruch 1, wobei die Schichten der ersten und der zweiten neuronalen Netzwerke, die identische Parameter aufweisen, übergeordnete Merkmale des digitalen Bildes erzeugen, und wobei die Schichten der ersten und der zweiten neuronalen Netzwerke, die unterschiedliche Parameter aufweisen, untergeordnete Merkmale des digitalen Bildes erzeugen.
Verfahren nach Anspruch 3, wobei die untergeordneten Merkmale von den übergeordneten Merkmalen abgeleitet werden.
Verfahren nach Anspruch 1, wobei das digitale Bild eines von oder eine Kombination aus einem Bild, einem Video, einem Text und einem Ton aufweist.
Verfahren nach Anspruch 1, ferner umfassend: gemeinsames Trainieren des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks unter Erzwingung identischer Parameter für mehrere untere Schichten des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks.
Verfahren nach Anspruch 6, wobei zumindest eines oder beide des ersten neuronalen Netzwerks und des zweiten neuronalen Netzwerks unter Verwendung von Generative-Adversarial-Networks (GANs = generative gegnerische Netzwerke) trainiert werden, aufweisend ein generatives Teilnetzwerk zum Erzeugen einer Probe des digitalen Bildes einer bestimmten Modalität und ein diskriminatives Teilnetzwerk zum Testen, ob die Probe des durch das generative Teilnetzwerk erzeugten digitalen Bildes die spezifische Modalität aufweist.
Verfahren nach Anspruch 7, wobei ein erstes generatives Teilnetzwerk und ein erstes diskriminatives Teilnetzwerk des ersten neuronalen Netzwerks und ein zweites generatives Teilnetzwerk und ein zweites diskriminatives Teilnetzwerk des zweiten neuronalen Netzwerks gemeinsam trainiert werden, um eine Minimax-Zielfunktion zu minimieren.
Verfahren nach Anspruch 1, ferner umfassend: Rendern des digitalen Bildes der ersten und zweiten Modalität auf einer Anzeigeeinrichtung oder Übertragen des digitalen Bildes der ersten und zweiten Modalität über einen Kommunikationskanal.
Verfahren nach Anspruch 1, wobei die erste Modalität des digitalen Bildes ein Farbbild ist, und wobei die zweite Modalität des digitalen Bildes ein Tiefenbild ist.
Verfahren nach Anspruch 1, wobei die erste Modalität des digitalen Bildes ein Farbbild ist, und wobei die zweite Modalität des digitalen Bildes ein Wärmebild ist.
Verfahren nach Anspruch 1, wobei die erste Modalität des digitalen Bildes ein Bild ist, das einen ersten Stil aufweist, und wobei die zweite Modalität des digitalen Bildes ein Bild ist, das einen zweiten Stil aufweist.
Verfahren nach Anspruch 1, wobei das erste neuronale Netzwerk und das zweite neuronale Netzwerk ausgewählt sind aus einer Gruppe der gemeinsam trainierten neuronalen Netzwerke, um eine Gruppe von Modalitäten des digitalen Bildes zu erzeugen, umfassend: Verarbeiten des Vektors mit einer Gruppe von neuronalen Netzwerken, um das multimodale digitale Bild zu erzeugen.
Verfahren nach Anspruch 13, wobei die Gruppe der neuronalen Netzwerke ein gekoppeltes Generative Adversarial Network, generatives gegnerisches Netzwerk (CoGAN), bildet.
System zum Generieren eines multimodalen digitalen Bildes, umfassend: mindestens einen nichtflüchtigen computerlesbaren Speicher, speichernd ein erstes neuronales Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und ein zweites neuronales Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks identisch sind mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden; und einen Prozessor, um das multimodale digitale Bild zu generieren durch Verarbeiten eines Vektors mit dem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen, und Verarbeiten des Vektors mit dem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, und das multimodale digitale Bild im Speicher zu speichern.
System nach Anspruch 15, ferner umfassend: eine Anzeigeeinrichtung zum Anzeigen des multimodalen digitalen Bildes.
System nach Anspruch 15, wobei die Schichten der ersten und der zweiten neuronalen Netzwerke mit identischen Parametern übergeordnete Merkmale des digitalen Bildes erzeugen, und wobei die Schichten der ersten und der zweiten neuronalen Netzwerke mit unterschiedlichen Parametern untergeordnete Merkmale des digitalen Bildes erzeugen, wobei die übergeordneten Merkmale dem gesamten digitalen Bild zugeordnet sind und die untergeordneten Merkmale einem Teil des digitalen Bildes zugeordnet sind.
System nach Anspruch 15, wobei das digitale Bild eines von oder eine Kombination aus einem Bild, einem Video, einem Text und einem Ton aufweist.
System nach Anspruch 15, wobei das erste und das zweite neuronale Netzwerk gemeinsam trainiert werden.
Nichtflüchtiges, computerlesbares Medium mit darauf gespeicherten Anweisungen, die bei Ausführung durch einen Prozessor die folgenden umfassenden Schritte durchführen: Verarbeiten eines Vektors mit einem ersten neuronalen Netzwerk, das trainiert ist, eine erste Modalität des digitalen Bildes zu erzeugen; und Verarbeiten des Vektors mit einem zweiten neuronalen Netzwerk, das trainiert ist, eine zweite Modalität des digitalen Bildes zu erzeugen, wobei eine Struktur und eine Anzahl von Schichten des ersten neuronalen Netzwerks mit einer Struktur und einer Anzahl von Schichten des zweiten neuronalen Netzwerks identisch sind, wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die mit Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk identisch sind, und wobei zumindest eine Schicht im ersten neuronalen Netzwerk Parameter aufweist, die sich von Parametern einer korrespondierenden Schicht im zweiten neuronalen Netzwerk unterscheiden.