MiniGPT-4: Ett gratis bild-till-text AI-verktyg som du kan prova idag

ChatGPT är bra, men just nu är det begränsat till bara text - text in, text ut. GPT-4 var tänkt att utöka detta genom att lägga till bildbehandling så att den kunde generera text baserad på bilder.

Innehåll

  • Vad är MiniGPT-4?
  • Hur man använder MiniGPT-4
  • Begränsningar för MiniGPT-4

MiniGPT-4: Förbättra syn-språkförståelsen med avancerade stora språkmodeller

OpenAI har dock ännu inte släppt den här funktionen, vilket är där MiniGPT-4 kommer in. Detta projekt med öppen källkod ger oss en förhandstitt på vad bildbehandlingen innehåller GPT-4 kan vara som - och det är ganska snyggt.

Rekommenderade videor

Vad är MiniGPT-4?

MiniGPT-4 är ett projekt med öppen källkod som publicerades på GitHub för att demonstrera vision-språkfunktioner i ett AI-system. Några exempel på vad den kan göra inkluderar att skapa beskrivningar av bilder, skriva berättelser baserade på bilder eller till och med skapa webbplatser bara från ritningar.

Relaterad

  • Toppförfattare kräver betalning från AI-företag för att de använder deras arbete
  • GPT-4: hur man använder AI-chatboten som gör ChatGPT på skam
  • Wix använder ChatGPT för att hjälpa dig att snabbt bygga en hel webbplats

Trots vad namnet antyder är MiniGPT-4 inte officiellt ansluten till OpenAI eller GPT-4. Den skapades av en grupp Ph.D. studenter baserade i Saudiarabien vid King Abdullah University of Science and Technology. Den är också baserad på en annan stor språkmodell (LLM) som heter Vicuna, som i sig byggdes på öppen källkod Large Language Model Meta AI (LLaMA). Det är inte riktigt lika kraftfullt som ChatGPT, men enligt betyg GPT-4 självt kommer Vicuna inom 90%.

Hur man använder MiniGPT-4

MiniGPT-4 är bara en demo och är fortfarande i sin första version. För närvarande kan den nås gratis på gruppens officiella hemsida. För att använda den, dra bara in en bild eller klicka på "Släpp bild här." När den har laddats upp, skriv din uppmaning i sökrutan.

Vilken typ av saker ska du testa? Tja, att be MiniGPT-4 att beskriva en bild är tillräckligt enkelt. Men du kanske behöver en kopia för ett Instagram-inlägg för ditt företag. Eller kanske du vill veta vilka ingredienser som behövs för en intressant maträtt, och till och med ett recept på hur man lagar den. MiniGPT-4 kan hantera dessa uppgifter förvånansvärt bra.

Kodningsaspekterna är lite mer grova runt kanterna. Att förvandla en enkel servettteckning till en fungerande webbplats var ett trick som OpenAI visade upp när GPT-4 först tillkännagavs. Men MiniGPT-4 verkar inte kunna hantera det lika bra än. ChatGPT kommer att tillhandahålla mer exakt kod - faktiskt, köra vad MiniGPT-4-koden än är genom ChatGPT eller GPT-4 ger dig bättre resultat.

En sak att notera är att MiniGPT-4 använder ditt lokala systems GPU. Så om du inte har en ganska kraftfull diskret GPU kan du tycka att upplevelsen är ganska långsam. För sammanhanget provade jag det på en M2 Max MacBook Pro, och det tog cirka 30 sekunder att generera text baserat på en bild jag laddade upp.

Begränsningar för MiniGPT-4

Hastigheten hos MiniGPT-4 är verkligen en begränsning. Om du försöker komma åt detta utan någon anständig grafik är det för långsamt för att känna sig lyhörd. Om du är van vid hastigheten på molnbaserad ChatGPT eller till och med Bing Image Creator, MiniGPT-4 kommer att kännas smärtsamt långsam.

Utöver det har MiniGPT-4 alla samma begränsningar som ChatGPT eller Google Bard eller någon annan AI-chatbot genom att den kan "hallucinera" eller skapa information.

Redaktörens rekommendationer

  • Här är anledningen till att folk tror att GPT-4 kan bli dummare med tiden
  • ChatGPT: de senaste nyheterna, kontroverserna och tipsen du behöver veta
  • Vad är en DAN-prompt för ChatGPT?
  • Google Bard kan nu tala, men kan det överrösta ChatGPT?
  • ChatGPT-tillverkaren OpenAI står inför FTC-utredning över konsumentskyddslagar

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.