5 речей, з якими генератори зображень ШІ все ще борються

ШІ-генератори зображень, як Dall-E, Стабільна дифузія, Середня дорога, і Bing Image Creator дають дивовижні результати, але іноді вони можуть неймовірно засмучувати. За допомогою простих підказок, що містять лише кілька слів, штучний інтелект може виводити вражаючі зображення, які виглядають як професійні фотографії та переконливе мистецтво в різних стилях. Однак те саме підказка час від часу створюватиме якусь жахливу істоту або смішно помилкове відображення.

Зміст

  • Ручний салат і кульки пальців
  • Тривожний текст і письмо
  • Очі цього не мають
  • Проблемні інструменти
  • Кошмарні зуби
  • ШІ-мистецтво швидко вдосконалюється

Негативні підказки можуть допомогти зменшити ймовірність цих помилок, але складність не завжди може вас врятувати. Навіть експерти зі штучного інтелекту борються з деформованими істотами та незвичайними сценами, що вимагає довгих годин уточнення підказок або ретушування зображень за допомогою традиційного фоторедактора. На даний момент, якщо ви уважно подивіться на правильні ділянки зображення, є хороші шанси, що ви зможете визначити, чи зроблено воно машиною.

Рекомендовані відео

Ручний салат і кульки пальців

Розробники штучного інтелекту досягли прогресу в боротьбі за те, щоб навчити інструменти штучного інтелекту, як мають виглядати людські руки, але є багато можливостей для вдосконалення. Якщо пальці не видні, помилки легко пропустити, але це постійна проблема.

Пов'язані

  • Stable Diffusion має на меті вирішити проблему з генеруванням пальців
  • З’явилися відео, створені штучним інтелектом, і вони швидко розвиваються
  • Bing Image Creator переносить зображення, згенеровані DALL-E штучним інтелектом, у ваш браузер
Dall-E був першим лідером штучного інтелекту, але руки — це не його головне.
Dall-E був першим лідером штучного інтелекту, але руки — це не його головне.Dall-E за підказкою Алана Трулі

Один із перших і найкращих загальнодоступних генераторів зображень ШІ, Dall-E від OpenAI, створив ці фотографії людей, що тримаються за руки. На перший погляд це може виглядати добре. При найближчому розгляді стають очевидними деякі проблеми. Остерігайтеся зайвих пальців, дивних нігтів і злитих пальців.

Складні захвати та переплетені пальці ще складніші. Не дивуйтеся, якщо ваші ШІ-зображення повертаються з класичними збоями, які називаються «руками» або «кулями пальців».

Переплетені стрілки Dall-E викликають занепокоєння.
Переплетені стрілки Dall-E викликають занепокоєння.Dall-E за підказкою Алана Трулі

Тривожний текст і письмо

Можна очікувати, що комп’ютер легко згенерує текст. Ви щодня бачите слів на екранах, коли берете телефон або відкриваєте браузер. Ранні комп'ютери, на відміну від найкращі ігрові ПК сьогодні не міг відображати будь-яку графіку. Все було текстом або цифрами.

Leonardo AI знає стилі, але друкований текст – це складно.
Leonardo AI знає стилі, але друкований текст – це складно.Леонардо ШІ за підказкою Алана Трулі

Проте відображення фактичних літер і символів у вигляді надрукованих або написаних слів напрочуд складно для Генератор зображень ШІ. Це може здатися легкою проблемою для вирішення, але це не так. Програма не може просто накладати простий текст. Щоб бути переконливим, стиль тексту, затінення, ракурс і перспектива мають відповідати решті сцени.

У цьому прикладі відносно новий генератор зображень зі штучним інтелектом, Leonardo AI, доклав відважних зусиль із вінтажним рекламним щитом для закусочної Jack Rabbit Slim. Після кількох спроб штучному інтелекту вдалося вимовити «Джека Кролика», що дуже близько до запиту. Вінтажний стиль фотографії був помітний на кожному зображенні, але літери та слова були здебільшого недоліками.

Leonardo AI був близький до того, щоб отримати правильний текст в одному з цих зображень.
Leonardo AI наблизився до правильного тексту у візуалізації ліворуч.Леонардо ШІ рендерить за підказкою Алана Трулі

Очі цього не мають

Bing Image Creator бореться з очима.
Bing Image Creator за підказкою Алана Трулі

Часто кажуть, що очі – це вікна в душу. Ми настільки покладаємося на зоровий контакт, що це може бути найважливішою деталлю у створенні реалістичного портрета. Але багатьом інструментам штучного інтелекту важко відобразити очі людини.

Bing Image Creator гідно впорався зі студійним фоном і позував сімейне фото кількох поколінь. Проте майже у кожної людини є дивні очі, ніби їх вставили інопланетяни, або, можливо, ці усміхнені люди перебувають у процесі перетворення на неземних створінь.

Два ближчі приклади проблем із очима Bing Image Creator.
Два ближчі приклади тривожних проблем із очима Bing Image Creator.Bing Image Creator за підказкою Алана Трулі

Проблемні інструменти

Люди чудово володіють інструментами, і не лише цифровими інструментами, такими як ШІ. Ми швидко опановуємо будь-який фізичний інструмент, який є у нас під рукою. ШІ, з іншого боку, намагається зрозуміти, що це таке та як вони використовуються.

Midjourney розуміє руки, але його спантеличують гайкові ключі.
Midjourney розуміє руки, але спантеличений гайковими ключами. Це лампочка внизу ліворуч?Midjourney за підказкою Алана Трулі

Midjourney — це генератор зображень штучного інтелекту, який досягає фантастичних успіхів у вирішенні проблем із людськими обличчями та руками. Однак, коли з’являється запит показати механіка, який закручує болт гайковим ключем, інструмент повністю відсутній. В одному випадку до рукавичок додаються нігті, а в іншому якось з’являється лампочка.

Ножиці надто складні для Bing Image Creator на цьому зображенні крупним планом волосся, яке стрижуть. Вони відкриті лише на одному зображенні і ніколи не здаються в процесі різання.

Bing Image Creator не може зрозуміти ножиці.
Bing Image Creator не може зрозуміти, як працюють ножиці.Bing Image Creator за підказкою Алана Трулі

Кошмарні зуби

У рендерах Stable Diffusion посмішок іноді забагато зубів.
Stable Diffusion через Leonardo AI, запропонований Аланом Трулі

Коли люди посміхаються та сміються, це зазвичай покращує картину, роблячи її приємною та веселою. Отримавши просту підказку, як-от двоє студентів, які посміхаються та сміються, штучний інтелект може перетворити це на кошмарне паливо з кількома рядами зубів та іншими дивними викривленнями.

Leonardo AI дозволяє вибирати між кількома моделями, і деякі добре справляються із зубами. Популярний Модель Stable Diffusion 2.1 потрібна допомога, щоб виправити зуби. З деякими негативними спонуканнями проблему було вирішено. Існують рішення для цих проблем із зображенням штучного інтелекту, але все одно потрібно попрацювати, щоб отримати хороші результати.

Посмішки Stable Diffusion виграють від негативних підказок.
Stable Diffusion посмішки виграють від негативних підказок видалити «дивні зуби» та «спотворений рот».Stable Diffusion через Leonardo AI, запропонований Аланом Трулі

ШІ-мистецтво швидко вдосконалюється

На початку мистецтва штучного інтелекту результати були дивними та чудовими, створюючи красу та жах однаково віддано. Помилки стають менш помітними з кожним новим оновленням, і багато проблем можна подолати за допомогою деяких доопрацювань.

с так багато доступних інструментів ШІ, легко спробувати іншу систему. Багато генераторів зображень штучного інтелекту дозволяють використовувати негативні підказки або інші параметри для налаштування алгоритму та отримання кращих результатів.

Можливо, вам знадобиться кілька спроб, щоб отримати придатне для використання зображення, особливо якщо є фокус на обличчях або руках. Якщо ви хочете включити друковані або написані слова, будьте готові витратити час у редакторі зображень, стираючи безглузді літери ШІ та змішуючи правильний текст.

Хороша новина полягає в тому, що багато генераторів зображень штучного інтелекту безкоштовні, а моделі підписки відносно недорогі. Протягом року ці затяжні проблеми можуть бути вирішені, дозволяючи використовувати штучний інтелект як готовий витвір мистецтва або заміна фотографії.

Рекомендації редакції

  • Нова функція зменшення масштабу Midjourney стає наступною великою сенсацією ШІ
  • Оновлений Bing Chat обходить ChatGPT у 6 важливих нових способах
  • Це вірусне зображення штучного інтелекту ввело в оману світ, і ви, можливо, вже його бачили
  • Новий генератор штучного інтелекту від Grammarly, схожий на ChatGPT, може зробити набагато більше, ніж перевірити ваші написані тексти
  • Я бачив (віддалене) майбутнє веб-пошуку штучного інтелекту – ось де це дивовижно, а де важко

Оновіть свій спосіб життяDigital Trends допомагає читачам стежити за динамічним світом технологій завдяки всім останнім новинам, цікавим оглядам продуктів, проникливим редакційним статтям і унікальним у своєму роді коротким оглядам.