Pencarian yang lebih cerdas: Mengapa 'pencarian semantik' akhirnya membuat Google memahami Anda

Mengapa-penelusuran-semantik'-akhirnya-akan-membiarkan-Google-memahami-Anda

Amir Efrati dari The Wall Street Journal telah mengangkat alis dengan sebuah artikel (berlangganan diperlukan) mengatakan Google berupaya untuk tetap berada di depan para pesaingnya dalam pencarian Internet dengan memperkenalkan lebih banyak teknologi yang disebut “pencarian semantik”. Idenya adalah kotak pencarian Google tidak hanya menjadi tempat bagi pengguna untuk mengetikkan kata kunci atau pertanyaan yang dibuat secara khusus, namun sebuah kotak yang memiliki informasi aktual. memahami dari banyak istilah, nama, kata kerja, dan referensi yang diketik orang — dan dapat menerapkan pengetahuan tersebut pada penelusuran pengguna. Secara teori, penelusuran semantik harus dapat memberikan hasil yang mencerminkan maksud si pencari, dan masuk beberapa kasus meningkatkan kemampuan Google untuk memberikan jawaban secara langsung tanpa mengarahkan pengguna ke jawaban lain lokasi.

Tapi tunggu — apakah ini sesuatu yang baru? Bukankah Google sudah menaruh beberapa jawaban di depan? Dan bagaimana pencarian semantik berpotensi membantu Google mempertahankan keunggulannya dalam bisnis pencarian Internet?

Video yang Direkomendasikan

Apa itu pencarian semantik?

Singkatnya, semantik memiliki lebih banyak kesamaan dengan Watson, aplikasi superkomputer IBM itu dengan mudah mengalahkan manusia pada Bahaya! dibandingkan dengan dialog Temukan di Microsoft Word.

Secara sederhana, dunia pencarian terkomputerisasi terbagi menjadi dua jenis:

Pencarian harfiah (kadang-kadang dipanggil pencarian navigasi) mencari kecocokan persis untuk beberapa atau seluruh istilah yang dimasukkan, dan mengembalikan item yang cocok — baik file, halaman Web, produk, atau beberapa unit informasi terpisah lainnya. Pencarian literal dapat ditambah dengan hal-hal seperti pencocokan batang, konjugasi, dan asosiasi yang memperluas atau membatasi pencarian dengan cara yang berguna — jadi menelusuri "terbang" mungkin juga menekan "terbang". Penelusuran literal adalah hal yang paling kita kenal saat ini, sebagian karena penelusuran ini paling mudah dilakukan oleh komputer melakukan.

Pencarian semantik berbeda dari penelusuran literal dalam dua hal. Pertama, pencarian semantik mencoba memahami apa yang ditanyakan pengguna dalam kueri dengan menempatkannya dalam konteks melalui analisis istilah dan bahasa kueri. Analisis ini dilakukan terhadap kumpulan pengetahuan yang telah dikompilasi secara ketat, yang mungkin mencakup pengetahuan tentang pengguna. Kedua, alih-alih mengembalikan sekumpulan file, halaman Web, produk, atau item lainnya, pencarian semantik mencoba menyediakan a langsung jawaban atas sebuah pertanyaan. Jika Anda bertanya pada mesin pencari semantik “Kapan Pluto ditemukan?” mungkin jawabannya “Pluto ditemukan pada 18 Februari 1930 oleh Clyde Tombaugh^*,” dimana mesin pencari literal kemungkinan besar akan mengembalikan link ke halaman Web yang berisi kata “ditemukan” dan “Pluto.”

Ternyata pencarian literal dan pencarian semantik bagus untuk tugas yang berbeda. Pencarian literal sangat bagus ketika pengguna mencari sesuatu yang spesifik benda, apakah itu file, halaman Web, dokumen, produk, album, atau item terpisah lainnya. Pencarian semantik, di sisi lain, ternyata lebih berguna ketika pengguna mencari sesuatu yang spesifik informasi — seperti tanggal, nomor, waktu, tempat, atau nama.

Berkat perkembangan teknologi pencarian literal dalam segala hal mulai dari pengolah kata hingga mesin pencari Web, kita sudah terbiasa dengan pencarian literal. Sebagian besar dari kita sudah mengetahui cara memanipulasi pencarian literal agar kita lebih dekat dengan apa yang kita inginkan pada percobaan pertama. Namun, menurut artikel WSJ Efrati, Google yakin teknologi pencarian semantik dapat memberikan jawaban langsung antara 10 dan 20 persen pencarian Web. Menurut Comscore, Google menangani 11,7 miliar pencarian di Amerika Serikat saja pada bulan Februari 2012. Dengan kemampuan pencarian semantik, lebih dari 2,3 miliar pencarian tersebut dapat dijawab secara langsung, daripada mengarahkan orang ke halaman Web dan situs lain.

Bukankah Google sudah melakukan hal ini?

Jika Anda pernah menggunakan penelusuran Web Google, Anda mungkin berpikir "Tapi tunggu, Google sudah melakukan ini!" Jenis "waktu saat ini di Tokyo" atau "berapa tinggi Gunung Everest” dan Google akan memberikan tebakan terbaiknya pada jawaban yang tepat di bagian atas hasil pencariannya. Google bahkan mengutip sumber untuk tanggapannya, dan beberapa dari sumber tersebut akan berada di “sepuluh tautan biru” klasik di bawah jawabannya. (Omong-omong, Google melaporkan Gunung Everest memiliki tinggi 8.848 meter.)

Agar adil, ini adalah salah satu dari sekian banyak kemampuan berguna yang telah Google masukkan ke dalam bilah pencariannya: Ia akan melakukan perhitungan (canggih), melakukan konversi unit dan mata uang, dan mendapatkan hal-hal seperti informasi penerbangan dan waktu tayang film lokal — tidak perlu mengetikkan yang rumit pertanyaan. Hal ini juga dapat memanfaatkan beberapa sumber data publik. Misalnya, mengetik “populasi Meksiko” ke dalam kotak pencarian akan menampilkan data dari Bank Dunia. Respon hari ini sebanyak 113.423.047 orang.

Namun, upaya Google untuk memberikan jawaban langsung terhadap beberapa jenis pertanyaan gagal dengan cepat, karena sebagian besar fitur tersebut tidak efektif diimplementasikan sebagai kasus khusus pada mesin pencari literal Google, bukan sebagai pencarian semantik yang mencoba memahami apa yang dilakukan pengguna ingin. Jenis "berapa tinggi gunung everest” (perhatikan ejaannya) ke dalam kotak pencarian, dan Google bahkan tidak berusaha memberikan jawaban: pencarian Google tidak mengetahui “mt” berarti “mount.” Demikian pula, jika Google telah menentukan lokasi Anda saat ini bukan di Meksiko (dan, jika Google tidak mengetahui lokasi Anda, Google akan menebak berdasarkan alamat IP Anda Dan, tidak, Anda tidak dapat memilih untuk tidak ikut serta) mencari "populasi kota meksiko” mungkin memberikan hasil yang tidak terduga. Pastinya Mexico City dihuni lebih dari 10.852 orang bukan?

Cara pencarian semantiknya berbeda

Pencarian semantik mencoba menghilangkan kesalahan semacam ini dengan dua cara. Pertama, ia mencoba memahami secara lebih akurat maksud di belakang pertanyaan tertentu. Kedua, ia berupaya mencocokkan elemen-elemen kueri tersebut dengan kumpulan pengetahuan mendalam yang telah dikompilasi sebelumnya untuk melihat apakah ia dapat menghasilkan jawaban yang bermakna.

Saat Anda mengirimkan kueri ke mesin pencari literal seperti Google, kueri tersebut tidak langsung dikirim ke sana setiap situs di Internet, periksa, dan laporkan kembali daftar situs yang menurut Anda paling cocok dengan situs Anda ketentuan. Sebaliknya, Google memiliki program perangkat lunak yang terus-menerus menjelajahi Internet untuk mencari situs-situs baru dan halaman Web baru, yang menciptakan indeks dari semua halaman yang mereka temukan. Meskipun ini merupakan penyederhanaan yang berlebihan, saat pengguna mengetikkan kueri penelusuran seperti “Konferensi Yalta,” Google melihat indeks tersebut untuk laman yang cocok dengan “Yalta” dan “konferensi”, serta laman yang kedua istilahnya berdekatan satu sama lain (misalnya, dalam 8 atau 10 kata). Google kemudian mengumpulkan URL untuk laman tersebut, mengurutkannya berdasarkan PageRank internalnya (ukuran Google atas manfaat relatif suatu laman yang pada dasarnya menghitung tautan ke laman tersebut sebagai suara positif), dan mengembalikan sebuah daftar.

Pengelolaan dan rekayasa data di balik proses seperti itu sangat menakutkan dan sangat besar bagi Google layak mendapat pujian karena berhasil melakukannya — terutama karena Google sering kali mampu melakukan hal ini dalam waktu sepersekian detik Kedua. Hal serupa terjadi di balik layar Bing Microsoft.

Pencarian semantik akan mendekati kueri yang sama secara berbeda. Daripada membandingkan kueri dengan indeks halaman Web yang telah dikompilasi sebelumnya (dan terus diperbarui) yang diketahuinya, mesin pencari semantik membandingkan kueri tersebut dengan indeks halaman Web terpisah yang sudah dipatuhi sebelumnya. kumpulan pengetahuan itu telah tersedia. Bayangkan kumpulan pengetahuan seperti database: Pada dasarnya, kumpulan pengetahuan berisi data, fakta, dan angka tentang subjek tertentu. Ada berbagai jenis kumpulan pengetahuan. Beberapa yang menarik adalah ontologi (yang mewakili informasi formal yang dapat dimanipulasi dengan aturan, fungsi, dan batasan) dan folksonomi, yang biasanya mewakili kumpulan pengetahuan yang ditentukan secara kolaboratif: Contohnya adalah pemberian tagar dan penanda sosial.

Kumpulan pengetahuan lebih dari sekadar tempat penyimpanan. Mereka juga mewakili hubungan antar item dalam basis pengetahuan, dan memungkinkan informasi digunakan secara bermakna banyak kumpulan pengetahuan. Selain itu, hubungan sering kali diungkapkan sedemikian rupa sehingga kesimpulan logis yang akurat dapat dibuat tanpa harus menyimpan semua kemungkinan data turunan. Ini sedikit bersifat antropomorfis, tetapi mesin pencari semantik dapat melakukan penalaran dasar dan deduksi pada data yang mereka ketahui. Sebagai bagian dari proses tersebut, mesin pencari semantik sering kali dirancang untuk menilai tingkat kepercayaan yang mereka miliki terhadap turunannya. Jika mereka merasa tidak paham dengan apa yang mereka bicarakan, mereka mungkin akan tetap diam. Jika mereka cukup yakin, mereka akan memberikan jawaban.

Jadi jika Anda memasukkan “Konferensi Yalta” ke dalam mesin pencari semantik, mesin tersebut akan melihat kumpulan pengetahuannya dan mungkin memunculkan beberapa fakta dan angka dasar, mungkin “4 hingga 11 Februari 1945.” Ini mungkin mengindikasikan kehadiran Stalin, Churchill, dan Franklin Roosevelt, dan ini merupakan peristiwa penting bahkan di bulan-bulan terakhir Perang Dunia II. Hal yang cukup mendasar.

Jika Anda bertanya pada mesin pencari literal “Apakah Konferensi Yalta terjadi pada masa Perang Korea?” Anda mungkin hanya akan mendapatkan daftar sepuluh tautan biru. Mungkin ada yang punya jawabannya.

Namun, jika Anda bertanya pada mesin pencari semantik, Anda akan mendapat jawaban satu kata: “Tidak.”

Itu di sinilah pencarian semantik menjadi sangat menarik.

Bukankah ini Wolfram Alpha?

Jika pertanyaan ini terdengar seperti hal-hal yang dilontarkan orang Wolfram Alfa mesin pencari, Anda benar sekali. Daripada menjadi indeks halaman Web, Wolfram Alpha berupaya menjadi mesin pengetahuan. Wolfram Alpha bukan tentang mencari sesuatu (seperti halaman Web), tapi meminta jawaban. Wolfram Alpha mengandalkan basis pengetahuan yang telah dipenuhi sebelumnya untuk membuahkan hasil, dan perusahaan menambahkan dan memperbarui basis pengetahuan baru secara berkala. Beberapa di antaranya merupakan data teknis yang sangat terspesialisasi – seperti informasi tentang unsur kimia atau genom lalat buah – sementara yang lainnya lebih aneh. Misalnya saja Wolfram Alpha yang mengetahui banyak tentang ras kucing.

Selama Anda tetap berada dalam jangkauan pengetahuan Wolfram Alpha, ia dapat melakukan analisis data yang berguna. Misalnya, Wolfram Alpha bisa bandingkan jarak lompatan singa dan harimau. (Ternyata mereka sebanding, tapi harimau umumnya lebih unggul dari singa.) Tapi jika Anda ingin tahu seberapa jauh kanguru bisa melompat? Ups, maaf: Tidak ada data tersedia.

Namun kueri yang gagal tentang kanguru hop menunjukkan sedikit tentang bagaimana Wolfram Alpha mencoba memahami berbagai hal. Sebelum memberikan jawaban, mesin menunjukkan asumsi bahwa “kanguru” berarti “kanguru, walabi,” tetapi pengguna dapat beralih ke kanguru antilopine, kanguru merah, atau abu-abu timur kanguru. Demikian pula, Wolfram Alpha telah menafsirkan “seberapa jauh seekor kanguru dapat melompat” sebagai kueri untuk “jarak lompatan”, sebuah titik data spesifik yang mungkin dimilikinya tentang hewan. Ternyata, Wolfram Alpha saat ini tidak memiliki data tersebut, namun interpretasinya terhadap kueri sangatlah penting.

Bukankah ini Siri?

Jika pertanyaan ini terdengar seperti hal-hal yang dilontarkan orang pada Siri di iPhone 4S (tapi, ingat, bukan iPad baru yang memulai debutnya minggu ini), Anda benar sekali. Namun, penting untuk diingat bahwa Siri hanya menangani setengah dari persamaan tersebut: memahami pertanyaan pengguna. Dengan melakukan hal ini, Siri mengatasi masalah komputasi yang sangat sulit dalam mengenali ucapan pengguna secara akurat melalui mikrofon secara real-time. Itu bukan prestasi kecil, tapi ini bukanlah mesin pencari semantik. Di balik layar, Siri menyerahkan pertanyaan ke Wolfram Alpha, Yelp, dan (jika semuanya gagal) mesin pencari Web pilihan pengguna. Jika Anda bertanya kepada Siri “Apakah Konferensi Yalta terjadi selama Perang Korea,” Siri mungkin akan menjawab pertanyaan tersebut dengan akurat Anda bertanya - itu berlaku untuk saya - tetapi itu hanya akan menawarkan untuk melakukan pencarian Web literal kuno untuk Anda.

Apa yang diharapkan

Ketertarikan Google pada pencarian semantik kemungkinan ada dua. Pertama, mereka mungkin ingin menggunakan teknologi ini sebagai kebanggaan lain yang menempatkannya di depan pesaingnya – terutama Microsoft Bing. Bing sudah lama memiliki kemitraan dengan Wolfram Alpha dirancang untuk membantu mesin pencari memberikan jawaban langsung bila memungkinkan. Namun, sejauh ini baik Bing maupun Google belum membuat terobosan besar dalam menjangkau konsumen dengan hasil pencarian langsung. Lagi pula, sebagian besar pengguna penelusuran sehari-hari mungkin tidak mengetahui kemampuan (terbatas) yang sudah ada. Bahkan bagi pengguna yang menyadarinya, Google pun sepertinya menganggap teknologi tersebut hanya berlaku pada 10 hingga 20 persen pencarian. Itu merupakan penelusuran yang banyak, namun berarti mayoritas (80 hingga 90 persen) penelusuran tidak akan menggunakannya.

Namun, ketika konsumen dengan cepat meninggalkan notebook, desktop, dan platform komputasi tradisional, kemampuan untuk memberikan jawaban yang singkat dan mudah dipahami terhadap pertanyaan pencarian yang rumit bisa menjadi hal yang sulit. sangat penting dalam dunia seluler. Bagi pengguna yang sedang mengemudi atau tidak ingin mengutak-atik keypad atau keyboard di layar, kemampuan untuk merespons pertanyaan lisan seperti “Apakah Golden Gate Park lebih besar dari Central Park?” atau “Ke arah mana ke flat Malcolm?” dengan jawaban sederhana seperti “Ya”, dan “Belok kiri berikutnya” dapat menjadi pembeda yang sangat berharga untuk seluler platform.

Hampir pasti di sinilah perusahaan seperti Apple dan Google ingin memanfaatkan teknologi ini.

* Tombaugh pertama kali mengidentifikasi Pluto sebagai objek bergerak pada tanggal 18 Februari 1930, namun tanpa disadari Pluto telah terlihat pada beberapa kesempatan sebelumnya. Yang paling awal diketahui saat ini adalah pada tahun 1909. Melihat? Pengetahuan itu licin.

Foto melalui: Annette Shaff / Shutterstock.com

Rekomendasi Editor

Seluruh internet kini menjadi milik AI Google
Anda tidak perlu menggunakan Bing – Google Penelusuran sekarang juga memiliki AI
Ups — Demo Google Bard AI tidak terbukti pada hasil pencarian pertama
Inilah rencana Google Penelusuran untuk mengatasi clickbait
Cara menghapus informasi pribadi dari pencarian Google

Pencarian yang lebih cerdas: Mengapa 'pencarian semantik' akhirnya membuat Google memahami Anda

Apa itu pencarian semantik?

Bukankah Google sudah melakukan hal ini?

Cara pencarian semantiknya berbeda

Bukankah ini Wolfram Alpha?

Bukankah ini Siri?

Apa yang diharapkan

Rekomendasi Editor

Kategori

Baru

Bagaimana jika 'Taxi of Tomorrow' juga memiliki mesin penjual otomatis?

Nasdaq menawarkan rabat $40.000.000 atas IPO Facebook

Ubisoft mengumumkan patch Far Cry 3 yang menghilangkan masalah HUD sepenuhnya