MiniGPT-4: Ein kostenloses Bild-zu-Text-KI-Tool, das Sie noch heute ausprobieren können

ChatGPT ist großartig, aber im Moment ist es nur auf Text beschränkt – Text rein, Text raus. GPT-4 sollte dies um die Bildverarbeitung erweitern, um Text auf Basis von Bildern generieren zu können.

Inhalt

  • Was ist MiniGPT-4?
  • So verwenden Sie MiniGPT-4
  • Einschränkungen von MiniGPT-4

MiniGPT-4: Verbesserung des Vision-Language-Verständnisses mit fortschrittlichen großen Sprachmodellen

OpenAI hat diese Funktion jedoch noch nicht veröffentlicht, und hier kommt MiniGPT-4 ins Spiel. Dieses Open-Source-Projekt gibt uns eine Vorschau auf die Bildverarbeitung GPT-4 könnte so sein – und es ist ziemlich ordentlich.

Empfohlene Videos

Was ist MiniGPT-4?

MiniGPT-4 ist ein Open-Source-Projekt, das auf GitHub veröffentlicht wurde, um Vision-Language-Funktionen in einem KI-System zu demonstrieren. Einige Beispiele dafür, was es tun kann, sind das Erstellen von Bildbeschreibungen, das Schreiben von Geschichten auf der Grundlage von Bildern oder sogar das Erstellen von Websites nur aus Zeichnungen.

Verwandt

  • Top-Autoren verlangen von KI-Firmen eine Bezahlung für die Nutzung ihrer Arbeit
  • GPT-4: So verwenden Sie den KI-Chatbot, der ChatGPT in den Schatten stellt
  • Wix verwendet ChatGPT, um Ihnen beim schnellen Aufbau einer gesamten Website zu helfen

Ungeachtet dessen, was der Name vermuten lässt, ist MiniGPT-4 nicht offiziell mit OpenAI oder GPT-4 verbunden. Es wurde von einer Gruppe von Doktoranden erstellt. Studenten mit Sitz in Saudi-Arabien an der King Abdullah University of Science and Technology. Es basiert auch auf einem anderen Large Language Model (LLM) namens Vicuna, das seinerseits auf dem Open-Source-Large Language Model Meta AI (LLaMA) aufbaut. Es ist nicht ganz so leistungsstark wie ChatGPT, entspricht aber der Bewertung von GPT-4 selbst kommt Vicuna auf 90 %.

So verwenden Sie MiniGPT-4

MiniGPT-4 ist nur eine Demo und befindet sich noch in der ersten Version. Derzeit ist der Zugriff kostenlos auf der offiziellen Website der Gruppe. Um es zu verwenden, ziehen Sie einfach ein Bild hinein oder klicken Sie auf „Bild hier ablegen“. Geben Sie nach dem Hochladen Ihre Eingabeaufforderung in das Suchfeld ein.

Was solltest du ausprobieren? Nun, es ist ganz einfach, MiniGPT-4 zu bitten, ein Bild zu beschreiben. Aber vielleicht benötigen Sie einen Text für einen Instagram-Beitrag für Ihr Unternehmen. Oder vielleicht möchten Sie wissen, welche Zutaten für ein interessantes Gericht benötigt werden, und sogar ein Rezept, wie man es zubereitet. MiniGPT-4 kann diese Aufgaben überraschend gut bewältigen.

Die Codierungsaspekte sind an den Rändern etwas rauer. Eine einfache Serviettenzeichnung in eine funktionierende Website umzuwandeln, war ein Trick, den OpenAI bei der ersten Ankündigung von GPT-4 vorführte. Doch damit scheint MiniGPT-4 noch nicht ganz so gut zurechtzukommen. ChatGPT stellt genaueren Code bereit – tatsächlich wird der MiniGPT-4-Code über ChatGPT oder ausgeführt GPT-4 wird Ihnen bessere Ergebnisse einbringen.

Beachten Sie, dass MiniGPT-4 die GPU Ihres lokalen Systems verwendet. Wenn Sie also nicht über eine ziemlich leistungsstarke separate GPU verfügen, kann es sein, dass das Erlebnis recht langsam ist. Für den Kontext habe ich es auf einem ausprobiert M2 Max MacBook Pro, und es dauerte etwa 30 Sekunden, um Text basierend auf einem von mir hochgeladenen Bild zu generieren.

Einschränkungen von MiniGPT-4

Die Geschwindigkeit von MiniGPT-4 ist sicherlich eine Einschränkung. Wenn Sie ohne anständige Grafik darauf zugreifen möchten, ist die Reaktionsfähigkeit zu langsam. Wenn Sie an die Geschwindigkeit von Cloud-basiertem ChatGPT gewöhnt sind oder sogar Bing Image Creator, MiniGPT-4 wird sich schmerzhaft langsam anfühlen.

Darüber hinaus weist MiniGPT-4 dieselben Einschränkungen auf wie ChatGPT oder Google Barde oder jeder andere KI-Chatbot, der „halluzinieren“ oder Informationen erfinden kann.

Empfehlungen der Redaktion

  • Aus diesem Grund denken die Leute, dass GPT-4 mit der Zeit dümmer werden könnte
  • ChatGPT: die neuesten Nachrichten, Kontroversen und Tipps, die Sie wissen müssen
  • Was ist eine DAN-Eingabeaufforderung für ChatGPT?
  • Google Bard kann jetzt sprechen, aber kann es ChatGPT übertönen?
  • Der ChatGPT-Hersteller OpenAI steht vor einer FTC-Untersuchung wegen Verbraucherschutzgesetzen

Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.