Zeitraffer des T2F-Trainings
Der Programmierer Animesh Karnewar wollte wissen, wie in Büchern beschriebene Figuren in der Realität aussehen würden, und wandte sich daher an künstliche Intelligenz, um zu sehen, ob sie diese fiktiven Personen richtig darstellen könnte. Das Forschungsprojekt mit dem Namen T2F nutzt ein generatives kontradiktorisches Netzwerk (GAN), um Text zu kodieren und Gesichtsbilder zu synthetisieren.
Einfach ausgedrückt besteht ein GAN aus zwei neuronale Netze, die miteinander argumentieren um die besten Ergebnisse zu erzielen. Beispielsweise besteht die Aufgabe von Netzwerk Nr. 1 darin, Netzwerk Nr. 2 vorzutäuschen, dass es sich bei einem gerenderten Bild um ein echtes Foto handelt, während Netzwerk Nr. 2 beweisen will, dass es sich bei dem angeblichen Foto nur um ein gerendertes Bild handelt. Dieser Hin- und Her-Prozess optimiert den Rendering-Prozess, bis Netzwerk Nr. 2 schließlich getäuscht wird.
Empfohlene Videos
Karnewar startete das Projekt mit einem Datensatz namens Face2Text, bereitgestellt von Forschern der Universität Kopenhagen
, das Beschreibungen in natürlicher Sprache für 400 zufällige Bilder enthält.„Die Beschreibungen werden bereinigt, um widerstrebende und irrelevante Bildunterschriften für die Personen auf den Bildern zu entfernen“, schreibt er. „Einige der Beschreibungen beschreiben nicht nur die Gesichtszüge, sondern liefern auch implizite Informationen aus den Bildern.“
Die Ergebnisse von Karnewars T2F-Projekt sind zwar nicht gerade fotorealistisch, aber es ist ein Anfang. Das oben eingebettete Video zeigt im Zeitraffer, wie das GAN zum Rendern von Illustrationen trainiert wurde aus Text, beginnend mit festen Farbblöcken und endend mit groben, aber erkennbaren Pixeln Darstellungen.
„Ich habe festgestellt, dass die bei höheren Auflösungen (32 x 32 und 64 x 64) generierten Samples im Vergleich zu den bei niedrigeren Auflösungen generierten Samples mehr Hintergrundrauschen aufweisen“, erklärt Karnewar. „Ich nehme es aufgrund der unzureichenden Datenmenge (nur 400 Bilder) wahr.“
Die zum Trainieren der gegnerischen Netzwerke verwendete Technik heißt „Progressives Wachstum von GANs„, was die Qualität und Stabilität im Laufe der Zeit verbessert. Wie das Video zeigt, startet der Bildgenerator mit einer extrem niedrigen Auflösung. Neue Schichten werden langsam in das Modell eingeführt, wodurch die Details mit fortschreitendem Training im Laufe der Zeit zunehmen.
„Das progressive Wachstum von GANs ist eine phänomenale Technik, um GANs schneller und stabiler zu trainieren“, fügt er hinzu. „Dies kann mit verschiedenen neuartigen Beiträgen aus anderen Arbeiten gekoppelt werden.“
In einem bereitgestellten Beispiel zeigt die Textbeschreibung eine Frau Ende 20 mit langen, zur Seite gekämmten braunen Haaren, sanften Gesichtszügen und ohne Make-up. Sie ist „lässig“ und „entspannt“. Eine andere Beschreibung zeigt einen Mann in den Vierzigern mit einem länglichen Gesicht, einer hervorstehenden Nase, braunen Augen, einem zurückweichenden Haaransatz und einem kurzen Schnurrbart. Obwohl die Endergebnisse extrem verpixelt sind, zeigen die endgültigen Renderings große Fortschritte bei der Art und Weise, wie K.I. kann Gesichter von Grund auf generieren.
Karnewar sagt, er plane, das Projekt auszuweiten, um zusätzliche Datensätze wie Flicker8K und Coco-Untertitel zu integrieren. Letztendlich könnte T2F im Bereich der Strafverfolgung eingesetzt werden, um Opfer und/oder Kriminelle unter anderem anhand von Textbeschreibungen zu identifizieren. Er ist offen für Vorschläge und Beiträge zum Projekt.
Um auf den Code zuzugreifen und einen Beitrag zu leisten, Gehen Sie hier zum Karnewar-Repository auf Github.
Empfehlungen der Redaktion
- Wissenschaftler nutzen K.I. künstlichen menschlichen genetischen Code zu erstellen
- Rückblick auf den Aufstieg der KI: Wie weit ist die künstliche Intelligenz seit 2010 gekommen?
- Intel und Facebook arbeiten zusammen, um Cooper Lake einen künstlichen Intelligenzschub zu verleihen
Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.