Προπόνηση T2F time lapse
Ο προγραμματιστής Animesh Karnewar ήθελε να μάθει πώς θα εμφανίζονταν στην πραγματικότητα οι χαρακτήρες που περιγράφονται στα βιβλία, γι' αυτό στράφηκε στην τεχνητή νοημοσύνη για να δει αν θα μπορούσε να αποδώσει σωστά αυτούς τους φανταστικούς ανθρώπους. Ονομάζεται T2F, το ερευνητικό έργο χρησιμοποιεί ένα παραγωγικό ανταγωνιστικό δίκτυο (GAN) για την κωδικοποίηση κειμένου και τη σύνθεση εικόνων προσώπων.
Με απλά λόγια, ένα GAN αποτελείται από δύο νευρωνικά δίκτυα που διαφωνούν μεταξύ τους να παράγει τα καλύτερα αποτελέσματα. Για παράδειγμα, η δουλειά του δικτύου Νο. 1 είναι να ξεγελάσει το δίκτυο Νο. 2 ώστε να πιστέψει ότι μια εικόνα που έχει αποδοθεί είναι πραγματική φωτογραφία, ενώ το δίκτυο Νο. 2 επιχειρεί να αποδείξει ότι η υποτιθέμενη φωτογραφία είναι απλώς μια αποδοθείσα εικόνα. Αυτή η διαδικασία εμπρός και πίσω ρυθμίζει τη διαδικασία απόδοσης έως ότου τελικά ξεγελαστεί το δίκτυο Νο. 2.
Προτεινόμενα βίντεο
Ο Karnewar ξεκίνησε το έργο χρησιμοποιώντας ένα Το σύνολο δεδομένων που ονομάζεται Face2Text παρέχεται από ερευνητές στο Πανεπιστήμιο της Κοπεγχάγης
, το οποίο περιέχει περιγραφές φυσικής γλώσσας για 400 τυχαίες εικόνες.«Οι περιγραφές καθαρίζονται για να αφαιρεθούν οι απρόθυμοι και άσχετοι λεζάντες που παρέχονται για τους ανθρώπους στις εικόνες», γράφει. «Ορισμένες από τις περιγραφές όχι μόνο περιγράφουν τα χαρακτηριστικά του προσώπου, αλλά παρέχουν και κάποιες υπονοούμενες πληροφορίες από τις φωτογραφίες».
Ενώ τα αποτελέσματα που προκύπτουν από το έργο T2F της Karnewar δεν είναι ακριβώς φωτορεαλιστικά, είναι μια αρχή. Το βίντεο που ενσωματώθηκε παραπάνω δείχνει μια χρονική προβολή του τρόπου με τον οποίο το GAN εκπαιδεύτηκε για την απόδοση εικονογραφήσεων από κείμενο, ξεκινώντας με συμπαγή μπλοκ χρώματος και τελειώνοντας με ακατέργαστα αλλά αναγνωρίσιμα pixilated αποδόσεις.
«Διαπίστωσα ότι τα δείγματα που δημιουργούνται σε υψηλότερες αναλύσεις (32 x 32 και 64 x 64) έχουν περισσότερο θόρυβο φόντου σε σύγκριση με τα δείγματα που δημιουργούνται σε χαμηλότερες αναλύσεις», εξηγεί ο Karnewar. «Το αντιλαμβάνομαι λόγω του ανεπαρκούς όγκου δεδομένων (μόνο 400 εικόνες).»
Η τεχνική που χρησιμοποιείται για την εκπαίδευση των αντίπαλων δικτύων ονομάζεται "Προοδευτική Ανάπτυξη των GANs», που βελτιώνει την ποιότητα και τη σταθερότητα με την πάροδο του χρόνου. Όπως δείχνει το βίντεο, η γεννήτρια εικόνας ξεκινά από εξαιρετικά χαμηλή ανάλυση. Νέα επίπεδα εισάγονται σιγά σιγά στο μοντέλο, αυξάνοντας τις λεπτομέρειες καθώς προχωρά η εκπαίδευση με την πάροδο του χρόνου.
«Η Προοδευτική Ανάπτυξη των GAN είναι μια εκπληκτική τεχνική για την εκπαίδευση των GAN πιο γρήγορα και με πιο σταθερό τρόπο», προσθέτει. «Αυτό μπορεί να συνδυαστεί με διάφορες νέες συνεισφορές από άλλες εφημερίδες».
Σε ένα παρεχόμενο παράδειγμα, η περιγραφή του κειμένου απεικονίζει μια γυναίκα στα τέλη της δεκαετίας των 20 με μακριά καστανά μαλλιά περασμένα στη μία πλευρά, απαλά χαρακτηριστικά του προσώπου και χωρίς μακιγιάζ. Είναι «casual» και «χαλαρή». Μια άλλη περιγραφή απεικονίζει έναν άνδρα στα 40 του με μακρόστενο πρόσωπο, προεξέχουσα μύτη, καστανά μάτια, γραμμή μαλλιών που υποχωρεί και κοντό μουστάκι. Αν και τα τελικά αποτελέσματα είναι εξαιρετικά εικονοστοιχεία, τα τελικά renders δείχνουν μεγάλη πρόοδο στο πώς το A.I. μπορεί να δημιουργήσει πρόσωπα από την αρχή.
Ο Karnewar λέει ότι σκοπεύει να κλιμακώσει το έργο για να ενσωματώσει πρόσθετα σύνολα δεδομένων όπως οι λεζάντες Flicker8K και Coco. Τελικά, το T2F θα μπορούσε να χρησιμοποιηθεί στον τομέα επιβολής του νόμου για τον εντοπισμό θυμάτων ή/και εγκληματιών βάσει περιγραφών κειμένου, μεταξύ άλλων εφαρμογών. Είναι ανοιχτός σε προτάσεις και συνεισφορές στο έργο.
Για πρόσβαση στον κωδικό και συνεισφορά, κατευθυνθείτε στο αποθετήριο του Karnewar στο Github εδώ.
Συστάσεις των συντακτών
- Οι επιστήμονες χρησιμοποιούν A.I. για τη δημιουργία τεχνητού ανθρώπινου γενετικού κώδικα
- Επανεξετάζοντας την άνοδο της A.I.: Πόσο μακριά έχει φτάσει η τεχνητή νοημοσύνη από το 2010;
- Η Intel και το Facebook συνεργάζονται για να δώσουν στον Cooper Lake μια ώθηση τεχνητής νοημοσύνης
Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.