5 πράγματα με τα οποία οι γεννήτριες εικόνων AI εξακολουθούν να αγωνίζονται

Οι γεννήτριες εικόνας AI αρέσουν Dall-E, Σταθερή Διάχυση, Μεσοταξίδι, και Δημιουργός εικόνων Bing παράγουν εκπληκτικά αποτελέσματα, αλλά μερικές φορές μπορεί να είναι απίστευτα απογοητευτικά. Με απλά μηνύματα που περιέχουν λίγες μόνο λέξεις, μια τεχνητή νοημοσύνη μπορεί να παράγει εντυπωσιακές εικόνες που φαίνονται να είναι επαγγελματικές φωτογραφίες και πειστική τέχνη σε διάφορα στυλ. Ωστόσο, η ίδια προτροπή θα δημιουργήσει περιστασιακά κάποιο φρικτό πλάσμα ή μια ξεκαρδιστικά λανθασμένη απόδοση.

Περιεχόμενα

  • Σαλάτα χεριών και μπαλάκια με τα δάχτυλα
  • Προβληματικό κείμενο και γραφή
  • Τα μάτια δεν το έχουν
  • Προβληματικά εργαλεία
  • Εφιαλτικά δόντια
  • Η τέχνη της τεχνητής νοημοσύνης βελτιώνεται ραγδαία

Τα αρνητικά μηνύματα μπορεί να βοηθήσουν στη μείωση της πιθανότητας αυτών των σφαλμάτων, αλλά η πολυπλοκότητα δεν μπορεί πάντα να σας σώσει. Ακόμη και οι ειδικοί της τεχνητής νοημοσύνης παλεύουν με κακοσχηματισμένα πλάσματα και απόκοσμες σκηνές, που απαιτούν πολλές ώρες εκλεπτυσμένων προτροπών ή αγγίζοντας εικόνες με ένα παραδοσιακό πρόγραμμα επεξεργασίας φωτογραφιών. Προς το παρόν, εάν κοιτάξετε προσεκτικά τις σωστές περιοχές μιας εικόνας, υπάρχει μεγάλη πιθανότητα να μπορείτε να προσδιορίσετε εάν έχει δημιουργηθεί από μηχανή.

Προτεινόμενα βίντεο

Σαλάτα χεριών και μπαλάκια με τα δάχτυλα

Οι προγραμματιστές τεχνητής νοημοσύνης έχουν σημειώσει πρόοδο στον αγώνα να διδάξουν τα εργαλεία τεχνητής νοημοσύνης πώς πρέπει να φαίνονται τα ανθρώπινα χέρια, αλλά υπάρχουν πολλά περιθώρια βελτίωσης. Εάν τα δάχτυλα δεν εμφανίζονται ευδιάκριτα, είναι εύκολο να χάσετε σφάλματα, αλλά είναι ένα συνεχές πρόβλημα.

Σχετίζεται με

  • Το Stable Diffusion στοχεύει να διορθώσει το πρόβλημά του με τη δημιουργία δακτύλων
  • Τα βίντεο που δημιουργούνται από AI έχουν φτάσει και εξελίσσονται γρήγορα
  • Το Bing Image Creator φέρνει εικόνες που δημιουργούνται από το DALL-E AI στο πρόγραμμα περιήγησής σας
Ο Dall-E ήταν ένας από τους πρώτους ηγέτης της τεχνητής νοημοσύνης, αλλά τα χέρια δεν είναι το θέμα του.
Ο Dall-E ήταν πρώιμος ηγέτης της τεχνητής νοημοσύνης, αλλά τα χέρια δεν είναι το θέμα του.Ο Dall-E υποκινήθηκε από τον Alan Truly

Μία από τις πρώτες και καλύτερες συσκευές δημιουργίας εικόνων AI που είναι διαθέσιμες στο κοινό, Το Dall-E του OpenAI, δημιούργησε αυτές τις εικόνες ανθρώπων πιασμένοι χέρι χέρι. Με την πρώτη ματιά, μπορεί να φαίνεται μια χαρά. Με μια πιο προσεκτική εξέταση, ορισμένα προβλήματα γίνονται εμφανή. Προσοχή στα επιπλέον δάχτυλα, τα περίεργα νύχια και τα συγχωνευμένα ψηφία.

Οι περίπλοκες λαβές και τα πλεγμένα δάχτυλα είναι ακόμη πιο προκλητικά. Μην εκπλαγείτε αν οι εικόνες σας με τεχνητή νοημοσύνη επανέλθουν με κλασικές δυσλειτουργίες που αναφέρονται ως "σαλάτα χεριών" ή "μπάλες από τα δάχτυλα".

Τα πλεγμένα χέρια του Dall-E είναι ανησυχητικά.
Τα πλεγμένα χέρια του Dall-E είναι ανησυχητικά.Ο Dall-E υποκινήθηκε από τον Alan Truly

Προβληματικό κείμενο και γραφή

Ίσως περιμένετε ότι το κείμενο θα ήταν εύκολο να δημιουργήσει ένας υπολογιστής. Βλέπετε στοιχεία λέξεων στις οθόνες καθημερινά όταν σηκώνετε το τηλέφωνο ή ανοίγετε ένα πρόγραμμα περιήγησης. Οι πρώτοι υπολογιστές, σε αντίθεση με τους κορυφαίους υπολογιστές παιχνιδιών σήμερα, δεν ήταν δυνατή η εμφάνιση γραφικών κανενός είδους. Όλα ήταν κείμενο ή αριθμοί.

Το Leonardo AI γνωρίζει στυλ, αλλά το τυπωμένο κείμενο είναι πρόκληση.
Το Leonardo AI γνωρίζει στυλ, αλλά το τυπωμένο κείμενο είναι πρόκληση.Το Leonardo AI παρακινήθηκε από τον Alan Truly

Ωστόσο, η εμφάνιση πραγματικών γραμμάτων και συμβόλων ως τυπωμένων ή γραπτών λέξεων είναι εκπληκτικά δύσκολη για έναν Γεννήτρια εικόνας AI. Μπορεί να ακούγεται σαν ένα εύκολο πρόβλημα στην επίλυση, αλλά δεν είναι. Μια εφαρμογή δεν μπορεί απλώς να επικαλύψει απλό κείμενο. Για να είναι πειστικό, το στυλ κειμένου, η σκίαση, η γωνία και η προοπτική πρέπει να ταιριάζουν με την υπόλοιπη σκηνή.

Στο παράδειγμα, μια σχετικά νέα συσκευή δημιουργίας εικόνων AI, ο Leonardo AI, έκανε μια γενναία προσπάθεια με μια vintage διαφημιστική πινακίδα για το δείπνο του Jack Rabbit Slim. Μετά από πολλές προσπάθειες, η τεχνητή νοημοσύνη κατάφερε να συλλαβίσει το "Jack Rabbit's", το οποίο είναι πολύ κοντά στο αίτημα. Το στυλ vintage φωτογραφίας ήταν εμφανές σε κάθε εικόνα, αλλά τα γράμματα και οι λέξεις ήταν ως επί το πλείστον ελαττωματικά.

Το Leonardo AI κόντεψε να πάρει το κείμενο σωστά σε μία από αυτές τις αποδόσεις.
Το Leonardo AI κόντεψε να διορθώσει το κείμενο στην απόδοση στα αριστερά.Το Leonardo AI κάνει renders με προτροπή του Alan Truly

Τα μάτια δεν το έχουν

Ο Δημιουργός εικόνων Bing παλεύει με τα μάτια.
Το Bing Image Creator ζητήθηκε από τον Alan Truly

Λέγεται συχνά ότι τα μάτια είναι τα παράθυρα στην ψυχή. Βασιζόμαστε τόσο πολύ στην οπτική επαφή που θα μπορούσε να είναι η πιο κρίσιμη λεπτομέρεια στη δημιουργία ενός ρεαλιστικού πορτρέτου. Αλλά πολλά εργαλεία τεχνητής νοημοσύνης δυσκολεύονται να αποδώσουν τα ανθρώπινα μάτια.

Το Bing Image Creator έκανε μια αξιοπρεπή δουλειά με το φόντο του στούντιο και πόζαρε μια οικογενειακή φωτογραφία πολλών γενεών. Ωστόσο, σχεδόν κάθε άτομο έχει παράξενα μάτια που μοιάζουν σαν να τα έχουν εισαγάγει εξωγήινοι, ή ίσως αυτοί οι χαμογελαστοί άνθρωποι βρίσκονται στη διαδικασία να μεταμορφωθούν σε απόκοσμα πλάσματα.

Δύο πιο κοντινά παραδείγματα προβλημάτων με τα μάτια του Bing Image Creator.
Δύο πιο κοντινά παραδείγματα των ανησυχητικών προβλημάτων με τα μάτια του Bing Image Creator.Το Bing Image Creator ζητήθηκε από τον Alan Truly

Προβληματικά εργαλεία

Οι άνθρωποι είναι υπέροχοι με εργαλεία και όχι μόνο με την ψηφιακή ποικιλία όπως η τεχνητή νοημοσύνη. Κατακτούμε γρήγορα κάθε φυσικό εργαλείο που έχουμε στη διάθεσή μας. Ένα AI, από την άλλη πλευρά, αγωνίζεται να καταλάβει τι είναι και πώς χρησιμοποιούνται.

Το Midjourney καταλαβαίνει τα χέρια αλλά μπερδεύεται από τα κλειδιά.
Το Midjourney καταλαβαίνει τα χέρια, αλλά μπερδεύεται από τα κλειδιά. Είναι μια λάμπα κάτω αριστερά;Midjourney που υποκινήθηκε από τον Alan Truly

Το Midjourney είναι μια συσκευή δημιουργίας εικόνων AI που σημειώνει φανταστική πρόοδο στην επίλυση προβλημάτων με ανθρώπινα πρόσωπα και χέρια. Ωστόσο, όταν σας ζητηθεί να δείξει ότι ένας μηχανικός σφίγγει ένα μπουλόνι με ένα κλειδί, το εργαλείο απουσιάζει εντελώς. Τα νύχια προστίθενται στα γάντια σε μια περίπτωση και μια λάμπα εμφανίζεται με κάποιο τρόπο σε μια άλλη.

Το ψαλίδι είναι πολύ περίπλοκο για το Bing Image Creator σε αυτήν την κοντινή απεικόνιση των μαλλιών που κόβονται. Είναι ανοιχτά μόνο σε μία εικόνα και δεν φαίνεται ποτέ να είναι στην πράξη της κοπής.

Το Bing Image Creator δεν μπορεί να καταλάβει το ψαλίδι.
Το Bing Image Creator δεν μπορεί να καταλάβει πώς λειτουργεί το ψαλίδι.Το Bing Image Creator ζητήθηκε από τον Alan Truly

Εφιαλτικά δόντια

Τα χαμόγελα Stable Diffusion έχουν μερικές φορές πάρα πολλά δόντια.
Stable Diffusion via Leonardo AI, με προτροπή του Alan Truly

Όταν οι άνθρωποι χαμογελούν και γελούν, αυτό συνήθως βελτιώνει μια εικόνα, καθιστώντας την ευχάριστη και διασκεδαστική. Όταν δίνεται μια απλή προτροπή, όπως δύο μαθητές να χαμογελούν και να γελούν, μια τεχνητή νοημοσύνη μπορεί να το μετατρέψει σε εφιαλτικό καύσιμο με πολλές σειρές δοντιών και άλλες περίεργες παραμορφώσεις.

Το Leonardo AI σάς επιτρέπει να επιλέξετε ανάμεσα σε πολλά μοντέλα και ορισμένα χειρίζονται καλά τα δόντια. Το λαϊκό Μοντέλο Stable Diffusion 2.1 χρειαζόταν κάποια βοήθεια για να φτιάξουν σωστά τα δόντια. Με κάποια αρνητική προτροπή, το ζήτημα επιλύθηκε. Υπάρχουν λύσεις σε αυτά τα προβλήματα εικόνας τεχνητής νοημοσύνης, αλλά χρειάζεται ακόμα δουλειά για να έχετε καλά αποτελέσματα.

Τα χαμόγελα Stable Diffusion επωφελούνται από αρνητικές προτροπές.
Τα χαμόγελα Stable Diffusion επωφελούνται από αρνητικές προτροπές για την αφαίρεση «περίεργων δοντιών» και «παραμορφωμένου στόματος».Stable Diffusion via Leonardo AI, με προτροπή του Alan Truly

Η τέχνη της τεχνητής νοημοσύνης βελτιώνεται ραγδαία

Στις πρώτες μέρες της τέχνης της τεχνητής νοημοσύνης, τα αποτελέσματα ήταν περίεργα και υπέροχα, δημιουργώντας ομορφιά και φρίκη με την ίδια εγκατάλειψη. Τα σφάλματα γίνονται λιγότερο αισθητά με κάθε νέα ενημέρωση και πολλά προβλήματα μπορούν να ξεπεραστούν με κάποια βελτίωση.

Με τόσα πολλά διαθέσιμα εργαλεία AI, είναι εύκολο να δοκιμάσετε ένα άλλο σύστημα. Πολλές γεννήτριες εικόνων AI επιτρέπουν αρνητικά μηνύματα ή άλλες επιλογές για να προσαρμόσουν τον αλγόριθμο και να λάβουν καλύτερα αποτελέσματα.

Μπορεί να χρειαστεί να κάνετε πολλές προσπάθειες για να λάβετε μια χρησιμοποιήσιμη εικόνα, ιδιαίτερα εάν υπάρχει εστίαση σε πρόσωπα ή χέρια. Όταν θέλετε να συμπεριλάβετε έντυπες ή γραπτές λέξεις, να είστε έτοιμοι να αφιερώσετε χρόνο σε ένα πρόγραμμα επεξεργασίας εικόνων σβήνοντας τα ανόητα γράμματα του AI και αναμειγνύοντας το σωστό κείμενο.

Τα καλά νέα είναι ότι πολλές γεννήτριες εικόνων AI είναι δωρεάν και τα μοντέλα συνδρομής είναι σχετικά φθηνά. Μέσα σε ένα χρόνο, αυτά τα μακροχρόνια προβλήματα θα μπορούσαν να επιλυθούν, επιτρέποντάς σας να χρησιμοποιήσετε μια απόδοση AI ως ολοκληρωμένο έργο τέχνης ή αντικατάσταση φωτογραφίας.

Συστάσεις των συντακτών

  • Η νέα δυνατότητα σμίκρυνσης του Midjourney γίνεται η επόμενη μεγάλη αίσθηση AI
  • Το ενημερωμένο Bing Chat ξεπερνά το ChatGPT με 6 σημαντικούς νέους τρόπους
  • Αυτή η ιογενής εικόνα τεχνητής νοημοσύνης ξεγέλασε τον κόσμο και ίσως την έχετε ήδη δει
  • Η νέα γεννήτρια τεχνητής νοημοσύνης της Grammarly που μοιάζει με ChatGPT μπορεί να κάνει πολλά περισσότερα από τη διόρθωση του γραπτού σας
  • Έχω δει το (μακρινό) μέλλον της τεχνητής νοημοσύνης στον ιστό - εδώ είναι εκπληκτικό και πού δυσκολεύεται

Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.