MiniGPT-4: бесплатный инструмент искусственного интеллекта для преобразования изображения в текст, который вы можете попробовать сегодня

ЧатGPT это здорово, но сейчас он ограничивается только текстом — ввод текста, вывод текста. ГПТ-4 предполагалось расширить эту возможность, добавив обработку изображений, позволяющую генерировать текст на основе изображений.

Содержание

  • Что такое MiniGPT-4?
  • Как использовать MiniGPT-4
  • Ограничения MiniGPT-4

MiniGPT-4: улучшение понимания визуального языка с помощью усовершенствованных моделей большого языка

Однако OpenAI еще не выпустила эту функцию, и именно здесь на помощь приходит MiniGPT-4. Этот проект с открытым исходным кодом дает нам предварительное представление о том, в чем заключается обработка изображений. ГПТ-4 может быть так — и это довольно аккуратно.

Рекомендуемые видео

Что такое MiniGPT-4?

MiniGPT-4 — это проект с открытым исходным кодом, который был опубликован на GitHub для демонстрации возможностей языка видения в системе искусственного интеллекта. Некоторые примеры того, что он может делать, включают создание описаний изображений, написание историй на основе изображений или даже создание веб-сайтов только из рисунков.

Связанный

  • Ведущие авторы требуют от компаний, занимающихся искусственным интеллектом, оплату за использование их работ
  • GPT-4: как использовать чат-бота с искусственным интеллектом, который посрамляет ChatGPT
  • Wix использует ChatGPT, чтобы помочь вам быстро создать целый веб-сайт.

Несмотря на то, что следует из названия, MiniGPT-4 официально не связан с OpenAI или GPT-4. Он был создан группой к.т.н. студенты из Саудовской Аравии в Университете науки и технологий имени короля Абдаллы. Он также основан на другой модели большого языка (LLM) под названием Vicuna, которая сама была построена на основе модели большого языка Meta AI с открытым исходным кодом (LLaMA). Он не такой мощный, как ChatGPT, но по оценкам ГПТ-4 сама Викунья попадает в пределах 90%.

Как использовать MiniGPT-4

MiniGPT-4 — это всего лишь демо-версия, и она все еще находится в первой версии. На данный момент доступ к нему можно получить бесплатно на официальном сайте группы. Чтобы использовать его, просто перетащите изображение или нажмите «Переместить изображение сюда». После загрузки введите запрос в поле поиска.

Какие вещи вам стоит попробовать? Что ж, попросить MiniGPT-4 описать изображение достаточно просто. Но, возможно, вам понадобится копия поста в Instagram для вашей компании. А может быть, вы хотите узнать ингредиенты, необходимые для интересного блюда, и даже рецепт его приготовления. MiniGPT-4 на удивление хорошо справляется с этими задачами.

Аспекты кодирования немного более грубы. Превращение простого рисунка на салфетке в функционирующий веб-сайт было трюком, продемонстрированным OpenAI, когда впервые был анонсирован GPT-4. Но MiniGPT-4, похоже, пока не справляется с этим. ChatGPT предоставит более точный код — фактически, запуск любого кода MiniGPT-4 через ChatGPT или ГПТ-4 принесет вам лучшие результаты.

Следует отметить, что MiniGPT-4 использует графический процессор вашей локальной системы. Таким образом, если у вас нет достаточно мощного дискретного графического процессора, работа может оказаться довольно медленной. Для контекста я попробовал это на М2 Макс Макбук Про, и создание текста на основе загруженного мной изображения заняло около 30 секунд.

Ограничения MiniGPT-4

Скорость MiniGPT-4, безусловно, является ограничением. Если вы пытаетесь получить к этому доступ без приличной графики, это слишком медленно, чтобы реагировать. Если вы привыкли к скорости облачного ChatGPT или даже Создатель изображений Bing, MiniGPT-4 будет мучительно медленным.

Помимо этого, MiniGPT-4 имеет те же ограничения, что и ChatGPT или Гугл Бард или любой другой чат-бот с искусственным интеллектом, который может «галлюцинировать» или выдумывать информацию.

Рекомендации редакции

  • Вот почему люди думают, что GPT-4 со временем может стать тупее
  • ChatGPT: последние новости, противоречия и советы, которые вам нужно знать
  • Что такое запрос DAN для ChatGPT?
  • Google Bard теперь может говорить, но сможет ли он заглушить ChatGPT?
  • Производитель ChatGPT OpenAI сталкивается с расследованием Федеральной торговой комиссии по поводу законов о защите прав потребителей

Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.