MiniGPT-4: Alat AI gambar-ke-teks gratis yang dapat Anda coba hari ini

ObrolanGPT bagus, tapi saat ini, ini terbatas hanya pada teks — teks masuk, teks keluar. GPT-4 seharusnya memperluas ini dengan menambahkan pemrosesan gambar untuk memungkinkannya menghasilkan teks berdasarkan gambar.

Isi

Apa itu MiniGPT-4?
Cara menggunakan MiniGPT-4
Keterbatasan MiniGPT-4

MiniGPT-4: Meningkatkan Pemahaman Bahasa Penglihatan dengan Model Bahasa Besar Tingkat Lanjut

Namun OpenAI belum merilis fitur ini, dan di situlah MiniGPT-4 berperan. Proyek sumber terbuka ini memberi kita pratinjau tentang pemrosesan gambar GPT-4 mungkin seperti — dan itu cukup rapi.

Video yang Direkomendasikan

Apa itu MiniGPT-4?

MiniGPT-4 adalah proyek sumber terbuka yang diposting di GitHub untuk mendemonstrasikan kemampuan bahasa visi dalam sistem AI. Beberapa contoh yang dapat dilakukannya termasuk membuat deskripsi gambar, menulis cerita berdasarkan gambar, atau bahkan membuat situs web hanya dari gambar.

Terkait

Penulis terkenal menuntut pembayaran dari perusahaan AI untuk menggunakan karya mereka
GPT-4: cara menggunakan chatbot AI yang mempermalukan ChatGPT

Wix menggunakan ChatGPT untuk membantu Anda membangun keseluruhan situs web dengan cepat

Terlepas dari namanya, MiniGPT-4 tidak terhubung secara resmi ke OpenAI atau GPT-4. Itu dibuat oleh sekelompok Ph.D. mahasiswa yang berbasis di Arab Saudi di Universitas Sains dan Teknologi King Abdullah. Ini juga didasarkan pada model bahasa besar (LLM) berbeda yang disebut Vicuna, yang dibangun di atas Large Language Model Meta AI (LLaMA) sumber terbuka. Ini tidak sekuat ChatGPT, tetapi berdasarkan penilaian GPT-4 sendiri, Vicuna mendapat 90%.

Cara menggunakan MiniGPT-4

MiniGPT-4 hanyalah demo dan masih dalam versi pertama. Untuk saat ini, dapat diakses secara gratis di situs resmi grup. Untuk menggunakannya, cukup seret gambar ke dalam atau klik “Lepaskan Gambar Di Sini.” Setelah diunggah, ketik perintah Anda ke dalam kotak pencarian.

Hal apa saja yang harus Anda coba? Meminta MiniGPT-4 untuk mendeskripsikan gambar cukup sederhana. Tapi mungkin Anda memerlukan beberapa salinan untuk postingan Instagram untuk perusahaan Anda. Atau mungkin Anda ingin mengetahui bahan-bahan yang dibutuhkan untuk membuat masakan yang menarik, bahkan resep cara memasaknya. MiniGPT-4 dapat menangani tugas-tugas ini dengan sangat baik.

Aspek pengkodean sedikit lebih kasar. Mengubah gambar serbet sederhana menjadi situs web yang berfungsi adalah trik yang ditunjukkan oleh OpenAI ketika GPT-4 pertama kali diumumkan. Namun MiniGPT-4 tampaknya belum mampu menangani hal tersebut dengan baik. ChatGPT akan memberikan kode yang lebih akurat — bahkan, menjalankan kode MiniGPT-4 apa pun melalui ChatGPT atau GPT-4 akan memberi Anda hasil yang lebih baik.

Satu hal yang perlu diperhatikan adalah MiniGPT-4 menggunakan GPU sistem lokal Anda. Jadi, kecuali Anda memiliki GPU diskrit yang cukup kuat, pengalaman Anda mungkin akan terasa cukup lambat. Untuk konteksnya, saya mencobanya pada a M2 Maks MacBook Pro, dan memerlukan waktu sekitar 30 detik untuk menghasilkan teks berdasarkan gambar yang saya unggah.

Keterbatasan MiniGPT-4

Kecepatan MiniGPT-4 tentu saja menjadi batasannya. Jika Anda mencoba mengaksesnya tanpa grafik yang bagus, itu terlalu lambat untuk terasa responsif. Jika Anda terbiasa dengan kecepatan ChatGPT berbasis cloud atau bahkan Pembuat Gambar Bing, MiniGPT-4 akan terasa sangat lambat.

Selain itu, MiniGPT-4 memiliki keterbatasan yang sama dengan ChatGPT atau Google Penyair atau chatbot AI lainnya yang dapat “berhalusinasi” atau mengarang informasi.

Rekomendasi Editor

Inilah alasan orang berpikir GPT-4 mungkin menjadi semakin bodoh seiring berjalannya waktu
ChatGPT: berita terkini, kontroversi, dan tips yang perlu Anda ketahui
Apa yang dimaksud dengan perintah DAN untuk ChatGPT?
Google Bard sekarang dapat berbicara, tetapi bisakah ia meredam ChatGPT?
Pembuat ChatGPT, OpenAI, menghadapi penyelidikan FTC atas undang-undang perlindungan konsumen

Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terkini, ulasan produk yang menyenangkan, editorial yang berwawasan luas, dan cuplikan unik.