5 dolog, amivel az AI képgenerátorok még mindig küzdenek

Az AI képgenerátorok kedvelik Dall-E, Stabil diffúzió, Midjourney, és Bing Image Creator csodálatos eredményeket produkálnak, de néha hihetetlenül frusztrálóak lehetnek. Az AI néhány szót tartalmazó egyszerű utasításokkal lenyűgöző képeket tud kiadni, amelyek professzionális fényképeknek és meggyőző művészeteknek tűnnek különböző stílusokban. Ugyanez a felszólítás azonban időnként borzalmas lényt vagy nevetségesen hibás megjelenítést hoz létre.

Tartalom

  • Kézi saláta és ujjgolyók
  • Zavaró szöveg és írás
  • A szemnek nincs meg
  • Zavaros eszközök
  • Rémálomfogak
  • Az AI művészet gyorsan fejlődik

A negatív felszólítások segíthetnek csökkenteni ezeknek a hibáknak a valószínűségét, de a bonyolultság nem mindig mentheti meg. Még a mesterséges intelligencia-szakértők is küzdenek a torz lényekkel és evilági jelenetekkel, amihez hosszú órákon át kell finomítani, vagy javítani kell a képeket egy hagyományos fotószerkesztővel. Egyelőre, ha alaposan megnézi a kép megfelelő területeit, jó eséllyel be tudja azonosítani, hogy gép készítette-e.

Ajánlott videók

Kézi saláta és ujjgolyók

A mesterséges intelligencia fejlesztői előrehaladást értek el a mesterséges intelligencia eszközeinek megtanításában, hogyan nézzenek ki az emberi kezek, de van még mit javítani. Ha az ujjak nem jelennek meg feltűnően, könnyen kihagyhatók a hibák, de ez egy folyamatos probléma.

Összefüggő

  • A Stable Diffusion célja, hogy megoldja a problémát az ujjak generálásával
  • Megérkeztek a mesterséges intelligencia által generált videók, és gyorsan fejlődnek
  • A Bing Image Creator DALL-E mesterséges intelligencia által generált képeket helyez el a böngészőjébe
Dall-E a mesterséges intelligencia korai vezetője volt, de a kezek nem számítanak rá.
Dall-E a mesterséges intelligencia korai vezetője volt, de a kezek nem számítanak rá.Dall-E Alan Truly kérésére

Az egyik első és legjobb AI képgenerátor, amely a nyilvánosság számára elérhető, Az OpenAI Dall-E, készítette ezeket a képeket kézen fogó emberekről. Első pillantásra jónak tűnhet. Közelebbről megvizsgálva néhány probléma nyilvánvalóvá válik. Óvakodjon a felesleges ujjaktól, a furcsa körmöktől és az összevont számjegyektől.

A bonyolult markolat és az átlapolt ujjak még nagyobb kihívást jelentenek. Ne lepődjön meg, ha a mesterséges intelligencia képei klasszikus hibákkal térnek vissza, amelyeket „kézsalátának” vagy „ujjgolyóknak” neveznek.

Dall-E összefont kezei zavaróak.
Dall-E összefont kezei zavaróak.Dall-E Alan Truly kérésére

Zavaró szöveg és írás

Arra számíthat, hogy a szöveg könnyen generálható a számítógép számára. Naponta látja a szavak bizonyítékát a képernyőn, amikor felveszi a telefont vagy megnyit egy böngészőt. A korai számítógépekkel ellentétben a legjobb játék PC-k ma nem tudott semmilyen grafikát megjeleníteni. Minden szöveg vagy szám volt.

A Leonardo AI ismeri a stílusokat, de a nyomtatott szöveg kihívást jelent.
A Leonardo AI ismeri a stílusokat, de a nyomtatott szöveg kihívást jelent.A Leonardo AI Alan Truly kérésére

A tényleges betűk és szimbólumok nyomtatott vagy írott szavakként való megjelenítése azonban meglepően trükkös egy AI képgenerátor. Könnyen megoldható problémának tűnhet, de nem az. Egy alkalmazás nem csak sima szöveget fedhet le. Ahhoz, hogy meggyőző legyen, a szövegstílusnak, az árnyékolásnak, a szögnek és a perspektívának meg kell egyeznie a jelenet többi részével.

A példában egy viszonylag új mesterséges intelligencia-képgenerátor, a Leonardo AI bátor erőfeszítéseket tett egy vintage óriásplakáttal Jack Rabbit Slim étkezőjében. Többszöri próbálkozás után az AI-nak sikerült kiírnia a „Jack Rabbit’s” szót, ami nagyon közel áll a kéréshez. A vintage fényképezés stílusa minden képen feltűnt, de a betűk és szavak többnyire hibásak voltak.

A Leonardo AI közel járt ahhoz, hogy a szöveg helyes legyen az egyik ilyen renderelésben.
A Leonardo AI közel állt ahhoz, hogy a szöveg helyes legyen a bal oldali renderelésben.A Leonardo AI rendereléseket Alan Truly kérte

A szemnek nincs meg

A Bing Image Creator szemekkel küszködik.
A Bing Image Creator Alan Truly kérésére

Sokszor mondják, hogy a szem a lélek ablaka. Annyira támaszkodunk a szemkontaktusra, hogy ez lehet a legkritikusabb részlet egy valósághű portré elkészítésében. De sok mesterséges intelligencia-eszköznek nehézséget okoz az emberi szem megjelenítése.

A Bing Image Creator tisztességes munkát végzett a stúdió hátterével és egy többgenerációs családi fotó pózolásával. Azonban szinte minden embernek vannak bizarr szemei, amelyek úgy néznek ki, mintha idegenek illesztették volna be, vagy talán ezek a mosolygós emberek földöntúli lényekké alakulnak át.

Két közelebbi példa a Bing Image Creator szemproblémáira.
Két közelebbi példa a Bing Image Creator zavaró szemproblémáira.A Bing Image Creator Alan Truly kérésére

Zavaros eszközök

Az emberek nagyszerűen bánnak az eszközökkel, és nem csak az olyan digitális változatokkal, mint az AI. Gyorsan elsajátítunk minden kéznél lévő fizikai eszközt. Egy mesterséges intelligencia viszont küzd, hogy megértse, mik ezek, és hogyan használják őket.

Midjourney érti a kezet, de zavarba jön a csavarkulcsoktól.
Midjourney érti a kezet, de zavarba jön a csavarkulcsoktól. Ez egy villanykörte a bal alsó sarokban?A középút Alan Truly által

A Midjourney egy mesterséges intelligencia képgenerátor, amely fantasztikus előrelépést tesz az emberi arcokkal és kezekkel kapcsolatos problémák megoldásában. Amikor azonban a rendszer felszólítja, hogy mutassa meg a szerelőt, aki egy csavart kulccsal meghúz, a szerszám teljesen hiányzik. Az egyik esetben körmöket adnak a kesztyűhöz, a másikban pedig valami villanykörte jelenik meg.

Az olló túl bonyolult a Bing Image Creator számára a vágott hajról készült közeli renderelésben. Csak egy képen nyitottak, és soha nem tűnnek vágásnak.

A Bing Image Creator nem tudja kitalálni az ollót.
A Bing Image Creator nem tudja kitalálni, hogyan működik az olló.A Bing Image Creator Alan Truly kérésére

Rémálomfogak

A mosolyok stabil diffúziós rendereinek néha túl sok foga van.
Stabil diffúzió a Leonardo AI-n keresztül, Alan Truly kérésére

Amikor az emberek mosolyognak és nevetnek, az általában javítja a képet, kellemessé és szórakoztatóvá teszi. Ha egy egyszerű felszólítást kap, például két diák mosolyog és nevet, egy mesterséges intelligencia ezt rémálommá változtathatja több sor foggal és egyéb furcsa torzításokkal.

A Leonardo AI lehetővé teszi, hogy több modell közül válasszon, és néhányan jól kezelik a fogakat. A népszerű Stable Diffusion 2.1 modell segítségre volt szüksége a fogak rendbetételéhez. Némi negatív felszólításra a probléma megoldódott. Vannak megoldások ezekre az AI képproblémákra, de még mindig munkára van szükség a jó eredmények eléréséhez.

A stabil diffúziós mosolyok számára előnyösek a negatív felszólítások.
A stabil diffúziós mosolyok számára előnyös a „furcsa fogak” és a „torz száj” eltávolítására irányuló negatív felszólítások.Stabil diffúzió a Leonardo AI-n keresztül, Alan Truly kérésére

Az AI művészet gyorsan fejlődik

A mesterséges intelligencia művészetének korai napjaiban az eredmények furcsaak és csodálatosak voltak, szépséget és iszonyatot teremtve egyformán. A hibák minden új frissítéssel kevésbé észrevehetők, és sok probléma megoldható némi finomítással.

Val vel annyi AI-eszköz áll rendelkezésre, könnyű kipróbálni egy másik rendszert. Sok mesterséges intelligencia képgenerátor negatív felszólításokat vagy más lehetőségeket tesz lehetővé az algoritmus beállításához és jobb eredmények eléréséhez.

Előfordulhat, hogy több kísérletet is meg kell tennie, hogy használható képet kapjon, különösen, ha az arcokra vagy a kezekre van a hangsúly. Ha nyomtatott vagy írott szavakat szeretne belefoglalni, készüljön fel arra, hogy időt tölt egy képszerkesztőben, hogy kitörölje az AI értelmetlen betűit, és belekeverje a megfelelő szöveget.

A jó hír az, hogy sok mesterséges intelligencia képgenerátor ingyenes, és az előfizetéses modellek viszonylag olcsók. Egy éven belül ezek az elhúzódó problémák megoldódhatnak, lehetővé téve, hogy egy mesterséges intelligencia renderet kész műalkotásként vagy egy fénykép helyettesítője.

Szerkesztői ajánlások

  • A Midjourney új kicsinyítési funkciója a következő nagy mesterségesintelligencia-szenzációvá válik
  • A frissített Bing Chat 6 fontos új módon ugrálja meg a ChatGPT-t
  • Ez a vírusos mesterségesintelligencia-kép megtévesztette a világot, és lehet, hogy már láttad
  • A Grammarly új ChatGPT-szerű AI-generátora sokkal többre képes, mint lektorálni az írásait
  • Láttam a mesterséges intelligencia internetes keresésének (távoli) jövőjét – itt van az, ahol csodálatos, és ahol küzd

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.