MiniGPT-4: bezpłatne narzędzie AI do przetwarzania obrazu na tekst, które możesz wypróbować już dziś

click fraud protection

CzatGPT jest świetny, ale obecnie ogranicza się tylko do tekstu — wprowadzanie tekstu i wysyłanie tekstu. GPT-4 miał to rozwinąć, dodając przetwarzanie obrazu, aby umożliwić generowanie tekstu na podstawie obrazów.

Zawartość

  • Co to jest MiniGPT-4?
  • Jak korzystać z MiniGPT-4
  • Ograniczenia MiniGPT-4

MiniGPT-4: Lepsze zrozumienie języka wzrokowego dzięki zaawansowanym modelom wielkojęzycznym

Jednak OpenAI nie wypuściło jeszcze tej funkcji i właśnie w tym miejscu pojawia się MiniGPT-4. Ten projekt open source daje nam podgląd tego, w czym odbywa się przetwarzanie obrazu GPT-4 może być – i jest całkiem fajnie.

Polecane filmy

Co to jest MiniGPT-4?

MiniGPT-4 to projekt typu open source, który został opublikowany w serwisie GitHub w celu zademonstrowania możliwości języka wizyjnego w systemie sztucznej inteligencji. Przykłady jego możliwości obejmują generowanie opisów obrazów, pisanie historii na podstawie obrazów, a nawet tworzenie stron internetowych wyłącznie na podstawie rysunków.

Powiązany

  • Czołowi autorzy żądają zapłaty od firm zajmujących się sztuczną inteligencją za korzystanie z ich pracy
  • GPT-4: jak korzystać z chatbota AI, który zawstydza ChatGPT
  • Wix używa ChatGPT, aby pomóc Ci szybko zbudować całą witrynę internetową

Pomimo tego, co sugeruje nazwa, MiniGPT-4 nie jest oficjalnie połączony z OpenAI ani GPT-4. Został stworzony przez grupę doktorantów. studenci mieszkający w Arabii Saudyjskiej na Uniwersytecie Nauki i Technologii Króla Abdullaha. Opiera się również na innym modelu dużego języka (LLM) o nazwie Vicuna, który sam został zbudowany w oparciu o meta AI (LLaMA) o otwartym kodzie źródłowym. Nie jest tak potężny jak ChatGPT, ale oceniany przez GPT-4 sama wigonia mieści się w granicach 90%.

Jak korzystać z MiniGPT-4

MiniGPT-4 jest tylko demo i jest jeszcze w swojej pierwszej wersji. Na razie można z niego korzystać bezpłatnie na oficjalnej stronie grupy. Aby z niego skorzystać, po prostu przeciągnij obraz lub kliknij „Upuść obraz tutaj”. Po przesłaniu wpisz monit w polu wyszukiwania.

Jakiego rodzaju rzeczy powinieneś wypróbować? Cóż, poproszenie MiniGPT-4 o opisanie obrazu jest dość proste. Ale może potrzebujesz kopii postu na Instagramie dla swojej firmy. A może chcesz poznać składniki potrzebne do ciekawego dania, a nawet przepis, jak je ugotować. MiniGPT-4 radzi sobie z tymi zadaniami zaskakująco dobrze.

Aspekty kodowania są nieco bardziej szorstkie na krawędziach. Przekształcenie prostego rysunku na serwetce w działającą stronę internetową było sztuczką zaprezentowaną przez OpenAI, gdy po raz pierwszy ogłoszono GPT-4. Jednak MiniGPT-4 nie wydaje się jeszcze w stanie sobie z tym tak dobrze poradzić. ChatGPT zapewni dokładniejszy kod — w rzeczywistości uruchamiając dowolny kod MiniGPT-4 za pośrednictwem ChatGPT lub GPT-4 zapewni Ci lepsze wyniki.

Należy zauważyć, że MiniGPT-4 korzysta z procesora graficznego systemu lokalnego. Tak więc, jeśli nie masz dość wydajnego, oddzielnego procesora graficznego, działanie może być dość powolne. Dla kontekstu wypróbowałem to na MacBook Pro M2 Max, a wygenerowanie tekstu na podstawie przesłanego przeze mnie obrazu zajęło około 30 sekund.

Ograniczenia MiniGPT-4

Prędkość MiniGPT-4 jest z pewnością ograniczeniem. Jeśli próbujesz uzyskać do niego dostęp bez przyzwoitej grafiki, jest on zbyt wolny, aby reagować. Jeśli jesteś przyzwyczajony do szybkości ChatGPT opartej na chmurze lub nawet Kreator obrazów Bing, MiniGPT-4 będzie boleśnie powolny.

Poza tym MiniGPT-4 ma te same ograniczenia, co ChatGPT lub Google Bard lub jakikolwiek inny chatbot AI, który może „halucynować” lub zmyślać informacje.

Zalecenia redaktorów

  • Oto dlaczego ludzie uważają, że GPT-4 może z czasem stać się głupszy
  • ChatGPT: najnowsze wiadomości, kontrowersje i wskazówki, które musisz znać
  • Co to jest zachęta DAN dla ChatGPT?
  • Google Bard może teraz mówić, ale czy może zagłuszyć ChatGPT?
  • Twórca ChatGPT, OpenAI, staje przed dochodzeniem FTC w sprawie przepisów dotyczących ochrony konsumentów

Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.