MiniGPT-4: un outil d'IA image-texte gratuit que vous pouvez essayer dès aujourd'hui

ChatGPT C'est génial, mais pour le moment, cela se limite au texte: texte entrant, texte sortant. GPT-4 était censé développer cela en ajoutant un traitement d'image pour lui permettre de générer du texte basé sur des images.

Contenu

  • Qu’est-ce que le MiniGPT-4 ?
  • Comment utiliser MiniGPT-4
  • Limites du MiniGPT-4

MiniGPT-4: Amélioration de la compréhension vision-langage grâce à de grands modèles de langage avancés

Cependant, OpenAI n'a pas encore publié cette fonctionnalité, c'est là qu'intervient MiniGPT-4. Ce projet open source nous donne un aperçu de ce qu'implique le traitement d'image GPT-4 pourrait être comme - et c'est plutôt sympa.

Vidéos recommandées

Qu’est-ce que le MiniGPT-4 ?

MiniGPT-4 est un projet open source publié sur GitHub pour démontrer les capacités de langage de vision dans un système d'IA. Quelques exemples de ce qu'il peut faire incluent la génération de descriptions d'images, l'écriture d'histoires basées sur des images ou même la création de sites Web uniquement à partir de dessins.

En rapport

  • Les meilleurs auteurs exigent une rémunération des entreprises d’IA pour l’utilisation de leurs travaux
  • GPT-4: comment utiliser le chatbot IA qui fait honte à ChatGPT
  • Wix utilise ChatGPT pour vous aider à créer rapidement un site Web complet

Malgré ce que son nom l'indique, MiniGPT-4 n'est pas officiellement connecté à OpenAI ou GPT-4. Il a été créé par un groupe de doctorants. étudiants basés en Arabie Saoudite à l’Université des Sciences et Technologies King Abdullah. Il est également basé sur un autre grand modèle de langage (LLM) appelé Vicuna, qui lui-même a été construit sur le modèle open source Large Language Model Meta AI (LLaMA). Ce n'est pas aussi puissant que ChatGPT, mais selon l'évaluation de GPT-4 elle-même, Vicuna se situe à 90%.

Comment utiliser MiniGPT-4

MiniGPT-4 n'est qu'une démo et en est encore à sa première version. Pour l'instant, il est accessible gratuitement sur le site officiel du groupe. Pour l'utiliser, faites simplement glisser une image ou cliquez sur « Déposer l'image ici ». Une fois téléchargé, tapez votre invite dans le champ de recherche.

Quels genres de choses devriez-vous essayer? Eh bien, demander à MiniGPT-4 de décrire une image est assez simple. Mais peut-être avez-vous besoin d’une copie pour une publication Instagram pour votre entreprise. Ou peut-être souhaitez-vous connaître les ingrédients nécessaires à un plat intéressant, et même une recette pour le cuisiner. MiniGPT-4 peut étonnamment bien gérer ces tâches.

Les aspects de codage sont un peu plus approximatifs sur les bords. Transformer un simple dessin sur serviette en un site Web fonctionnel était une astuce présentée par OpenAI lors de la première annonce de GPT-4. Mais MiniGPT-4 ne semble pas encore capable de gérer cela aussi bien. ChatGPT fournira un code plus précis – en fait, en exécutant le code MiniGPT-4 via ChatGPT ou GPT-4 vous rapportera de meilleurs résultats.

Une chose à noter est que MiniGPT-4 utilise le GPU de votre système local. Ainsi, à moins que vous ne disposiez d’un GPU discret assez puissant, vous risquez de trouver l’expérience assez lente. Pour le contexte, je l'ai essayé sur un MacBook Pro M2 Max, et il a fallu environ 30 secondes pour générer du texte basé sur une image que j'ai téléchargée.

Limites du MiniGPT-4

La vitesse du MiniGPT-4 est certainement une limitation. Si vous essayez d’y accéder sans des graphismes décents, il est trop lent pour réagir. Si vous êtes habitué à la vitesse de ChatGPT basé sur le cloud ou même Créateur d'images Bing, MiniGPT-4 va sembler terriblement lent.

Au-delà de cela, MiniGPT-4 a les mêmes limitations que ChatGPT ou Google Barde ou tout autre chatbot IA dans le sens où il peut « halluciner » ou inventer des informations.

Recommandations des rédacteurs

  • Voici pourquoi les gens pensent que GPT-4 pourrait devenir plus stupide avec le temps
  • ChatGPT: les dernières actualités, controverses et astuces à connaître
  • Qu'est-ce qu'une invite DAN pour ChatGPT?
  • Google Bard peut désormais parler, mais peut-il étouffer ChatGPT?
  • Le créateur de ChatGPT, OpenAI, fait face à une enquête de la FTC sur les lois sur la protection des consommateurs

Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde en évolution rapide de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.