MiniGPT-4: una herramienta gratuita de IA de conversión de imagen a texto que puedes probar hoy

ChatGPT es genial, pero en este momento se limita solo a texto: entrada y salida de texto. GPT-4 Se suponía que ampliaría esto agregando procesamiento de imágenes para permitirle generar texto basado en imágenes.

Contenido

  • ¿Qué es MiniGPT-4?
  • Cómo utilizar MiniGPT-4
  • Limitaciones de MiniGPT-4

MiniGPT-4: Mejora de la comprensión del lenguaje y la visión con modelos avanzados de lenguaje grande

Sin embargo, OpenAI aún no ha lanzado esta función, y ahí es donde entra en juego MiniGPT-4. Este proyecto de código abierto nos da una vista previa de cómo funciona el procesamiento de imágenes. GPT-4 podría ser como, y es bastante bueno.

Vídeos recomendados

¿Qué es MiniGPT-4?

MiniGPT-4 es un proyecto de código abierto que se publicó en GitHub para demostrar las capacidades de visión y lenguaje en un sistema de inteligencia artificial. Algunos ejemplos de lo que puede hacer incluyen generar descripciones de imágenes, escribir historias basadas en imágenes o incluso crear sitios web solo a partir de dibujos.

Relacionado

  • Los principales autores exigen un pago a las empresas de inteligencia artificial por utilizar su trabajo
  • GPT-4: cómo utilizar el chatbot de IA que avergüenza a ChatGPT
  • Wix usa ChatGPT para ayudarte a crear rápidamente un sitio web completo

A pesar de lo que su nombre implica, MiniGPT-4 no está oficialmente conectado a OpenAI o GPT-4. Fue creado por un grupo de Ph. D. estudiantes con sede en Arabia Saudita en la Universidad de Ciencia y Tecnología Rey Abdullah. También se basa en un modelo de lenguaje grande (LLM) diferente llamado Vicuña, que a su vez se construyó sobre el modelo de lenguaje grande Meta AI (LLaMA) de código abierto. No es tan poderoso como ChatGPT, pero según lo calificado por GPT-4 Vicuña se acerca al 90%.

Cómo utilizar MiniGPT-4

MiniGPT-4 es sólo una demostración y aún se encuentra en su primera versión. Por ahora se puede acceder de forma gratuita en el sitio web oficial del grupo. Para usarlo, simplemente arrastre una imagen o haga clic en "Soltar imagen aquí". Una vez cargado, escriba su mensaje en el cuadro de búsqueda.

¿Qué tipo de cosas deberías probar? Bueno, pedirle a MiniGPT-4 que describa una imagen es bastante simple. Pero tal vez necesites una copia para una publicación de Instagram de tu empresa. O tal vez quieras saber los ingredientes necesarios para un plato interesante e incluso una receta de cómo cocinarlo. MiniGPT-4 puede realizar estas tareas sorprendentemente bien.

Los aspectos de codificación son un poco más toscos. Convertir un simple dibujo en una servilleta en un sitio web funcional fue un truco que OpenAI mostró cuando se anunció por primera vez GPT-4. Pero MiniGPT-4 no parece poder manejar eso tan bien todavía. ChatGPT proporcionará un código más preciso; de hecho, ejecutar cualquier código MiniGPT-4 a través de ChatGPT o GPT-4 obtendrá mejores resultados.

Una cosa a tener en cuenta es que MiniGPT-4 utiliza la GPU de su sistema local. Por lo tanto, a menos que tenga una GPU discreta bastante potente, es posible que la experiencia le resulte bastante lenta. Para ponerlo en contexto, lo probé en un MacBook Pro M2 máx., y me tomó alrededor de 30 segundos generar texto basado en una imagen que subí.

Limitaciones de MiniGPT-4

La velocidad del MiniGPT-4 es sin duda una limitación. Si intentas acceder a esto sin algunos gráficos decentes, es demasiado lento para responder. Si está acostumbrado a la velocidad de ChatGPT basado en la nube o incluso Creador de imágenes de Bing, MiniGPT-4 se sentirá tremendamente lento.

Más allá de eso, MiniGPT-4 tiene las mismas limitaciones que ChatGPT o bardo de google o cualquier otro chatbot de IA que pueda "alucinar" o inventar información.

Recomendaciones de los editores

  • He aquí por qué la gente piensa que GPT-4 podría volverse más tonto con el tiempo
  • ChatGPT: las últimas noticias, controversias y consejos que necesitas saber
  • ¿Qué es un mensaje DAN para ChatGPT?
  • Google Bard ahora puede hablar, pero ¿puede ahogar a ChatGPT?
  • OpenAI, fabricante de ChatGPT, se enfrenta a una investigación de la FTC sobre las leyes de protección al consumidor

Mejora tu estilo de vidaDigital Trends ayuda a los lectores a mantenerse al tanto del vertiginoso mundo de la tecnología con las últimas noticias, reseñas divertidas de productos, editoriales interesantes y adelantos únicos.