Inteligentniejsze wyszukiwanie: dlaczego „wyszukiwanie semantyczne” w końcu pozwoli Google Cię zrozumieć

Dlaczego-wyszukiwarka-semantyczna-wreszcie-pozwoli-Google-Ciebie zrozumieć

Amir Efrati z „Wall Street Journal” wzbudził zdziwienie, publikując artykuł (wymagana subskrypcja), stwierdzając, że Google pracuje nad tym, aby wyprzedzić swoich rywali w wyszukiwaniu internetowym, wprowadzając bardziej tak zwaną technologię „wyszukiwania semantycznego”. Pomysł jest taki, że pole wyszukiwania Google nie byłoby tylko miejscem, w którym użytkownicy mogą wpisywać słowa kluczowe lub specjalnie sformułowane zapytania, ale polem posiadającym rzeczywistą zrozumienie wielu terminów, nazw, czasowników i odniesień wpisywanych przez ludzi, a także może zastosować tę wiedzę w wyszukiwaniach użytkowników. Teoretycznie wyszukiwanie semantyczne powinno zwracać wyniki odzwierciedlające intencje osoby wyszukującej w niektórych przypadkach poprawia się zdolność Google do natychmiastowego udzielania odpowiedzi bez odsyłania użytkowników do innego strona.

Ale czekaj – czy to coś nowego? Czy nie Google już dać kilka odpowiedzi od razu? I w jaki sposób wyszukiwanie semantyczne mogłoby potencjalnie pomóc Google w utrzymaniu wiodącej pozycji w branży wyszukiwarek internetowych?

Polecane filmy

Co to jest wyszukiwanie semantyczne?

Krótko mówiąc, semantyka ma znacznie więcej wspólnego z Watsonem, aplikacją IBM do obliczeń superkomputerowych z łatwością pokonał ludzi Na Niebezpieczeństwo! niż ma to miejsce w przypadku okna dialogowego Znajdź w programie Microsoft Word.

Mówiąc najprościej, świat wyszukiwania komputerowego dzieli się na dwa typy:

Dosłowne wyszukiwanie (Czasami nazywany wyszukiwanie nawigacyjne) wyszukuje dokładne dopasowania dla niektórych lub wszystkich wprowadzonych terminów i zwraca pasujące elementy — pliki, strony internetowe, produkty lub inną oddzielną jednostkę informacji. Wyszukiwanie dosłowne można rozszerzyć o takie elementy, jak dopasowywanie rdzeni, koniugaty i skojarzenia, które rozszerzają lub ograniczają wyszukiwanie w przydatny sposób — np. wyszukiwanie słowa „latać” może również trafić na „lot”. Wyszukiwanie dosłowne jest obecnie najbardziej znane, po części dlatego, że jest najłatwiejsze dla komputerów dokonywać.

Wyszukiwanie semantyczne różni się od wyszukiwania dosłownego pod dwoma względami. Po pierwsze, próbuje tego dokonać wyszukiwanie semantyczne zrozumieć o co użytkownik pyta w zapytaniu, umieszczając to w kontekście poprzez analizę terminów i języka zapytania. Analiza ta przeprowadzana jest w oparciu o ściśle skompilowane zbiory wiedzy, potencjalnie obejmujące wiedzę o użytkowniku. Po drugie, zamiast zwracać zestaw plików, stron internetowych, produktów lub innych elementów, wyszukiwanie semantyczne próbuje zapewnić: bezpośredni odpowiedź na pytanie. Jeśli zapytasz wyszukiwarkę semantyczną „Kiedy odkryto Plutona?” mogłaby odpowiedzieć: „Pluton został odkryty 18 lutego 1930 roku przez Clyde’a Tombaugha^*”, gdzie dosłowna wyszukiwarka najprawdopodobniej zwróciłaby linki do stron internetowych zawierających słowa „odkryty” i „Pluton”.

Okazuje się, że wyszukiwanie dosłowne i wyszukiwanie semantyczne są dobre do różnych zadań. Wyszukiwanie dosłowne jest świetne, gdy użytkownik szuka czegoś konkretnego rzecz, niezależnie od tego, czy jest to plik, strona internetowa, dokument, produkt, album czy inny oddzielny element. Wyszukiwanie semantyczne natomiast okazuje się bardziej przydatne, gdy użytkownik szuka czegoś konkretnego Informacja — na przykład data, liczba, godzina, miejsce lub imię.

Częściowo dzięki rozprzestrzenianiu się technologii wyszukiwania dosłownego we wszystkim, od edytorów tekstu po wyszukiwarki internetowe, jesteśmy najbardziej przyzwyczajeni do wyszukiwania dosłownego. Większość z nas wie już, jak manipulować wyszukiwaniem dosłownym, aby za pierwszym razem zbliżyć się do tego, czego chcemy. Jednak według artykułu Efrati w WSJ Google uważa, że technologia wyszukiwania semantycznego może zapewnić bezpośrednie odpowiedzi na od 10 do 20 procent wyszukiwań w Internecie. Według Comscore, Google obsłużyło 11,7 miliarda wyszukiwań w samych Stanach Zjednoczonych w lutym 2012 r. Dzięki funkcjom wyszukiwania semantycznego można było odpowiedzieć bezpośrednio na ponad 2,3 miliarda tych wyszukiwań, zamiast odsyłać ludzi do innych stron i witryn internetowych.

Czy Google już tego nie robi?

Jeśli w ogóle korzystałeś z wyszukiwarki Google, prawdopodobnie myślisz: „Ale czekaj, Google już to robi!” Typ "aktualny czas w Tokio" Lub "jak wysoki jest Mount Everest”, a Google według najlepszego przypuszczenia będzie umieszczać dokładną odpowiedź na górze wyników wyszukiwania. Google w swojej odpowiedzi cytuje nawet źródła, a niektóre z nich znajdą się w klasycznych „dziesięciu niebieskich linkach” pod odpowiedzią. (Nawiasem mówiąc, Google podaje, że Mount Everest ma 8848 metrów wysokości.)

Aby być uczciwym, jest to jedna z wielu przydatnych funkcji, które Google wbudował w swój pasek wyszukiwania: wykonuje (wyrafinowane) obliczenia matematyczne, wykonuje przeliczanie jednostek i walut oraz wyświetlanie takich informacji, jak informacje o lotach i godziny seansów w lokalnych filmach — nie ma potrzeby wpisywania skomplikowanych słów zapytanie. Może także korzystać z niektórych publicznych źródeł danych. Na przykład wpisując „populacja Meksyku” w polu wyszukiwania wyświetli dane z Banku Światowego. Odpowiedź na dzień dzisiejszy to 113 423 047 osób.

Jednak wysiłki Google mające na celu zapewnienie bezpośrednich odpowiedzi na niektóre typy pytań dość szybko spadają, ponieważ w dużej mierze są to funkcje zaimplementowane jako specjalne przypadki w dosłownej wyszukiwarce Google, a nie jako wyszukiwanie semantyczne, które próbuje zrozumieć, czego używa użytkownik chce. Typ "jak wysoki jest mt everest” (zwróć uwagę na pisownię) w polu wyszukiwania, a Google nawet nie próbuje udzielić odpowiedzi: wyszukiwarka Google nie wie, że „mt” oznacza „mount”. Podobnie, jeśli Google ustali, że Twoja bieżąca lokalizacja nie znajduje się w Meksyku (a jeśli Google nie zna Twojej lokalizacji, zgadnie na podstawie Twojego adresu IP I, nie, nie możesz zrezygnować) szukać "ludność miasta Meksyk” może zwrócić nieoczekiwane wyniki. Z pewnością Meksyk jest domem dla ponad 10 852 osób, prawda?

Czym różni się wyszukiwanie semantyczne

Wyszukiwanie semantyczne próbuje wyeliminować tego rodzaju gafy na dwa sposoby. Po pierwsze, stara się dokładniej zrozumieć zamiar za konkretnym zapytaniem. Po drugie, próbuje dopasować elementy tego zapytania do wstępnie skompilowanych pul głębokiej wiedzy, aby sprawdzić, czy uda mu się wypracować sensowną odpowiedź.

Kiedy wysyłasz zapytanie do zwykłej wyszukiwarki, takiej jak Google, nie zostaje ono natychmiast przesłane każdą witrynę w Internecie, przejrzyj ją i zgłoś listę witryn, które Twoim zdaniem najlepiej pasują do Twojej warunki. Zamiast tego Google posiada programy, które stale przeszukują Internet w poszukiwaniu nowych witryn i stron internetowych, które tworzą indeks ze wszystkich znalezionych stron. Choć jest to duże uproszczenie, gdy użytkownik wpisuje zapytanie typu „Konferencja w Jałcie”, Google sprawdza ten indeks pod kątem stron pasujących zarówno do „Jałta”, jak i „konferencja”, a także stron, w których oba terminy znajdują się blisko siebie (powiedzmy w promieniu 8–10 słów). Następnie Google zbiera adresy URL tych stron, sortuje je według wewnętrznego PageRank (stosowanej przez Google miary względnej wartości strony, która w zasadzie liczy linki do niej jako pozytywne głosy) i zwraca listę.

Zarządzanie danymi i inżynieria stojąca za takim procesem są zarówno zniechęcające, jak i gigantyczne, a Google zasługuje na pochwałę za to, że tego dokonał — zwłaszcza, że Google często jest w stanie to zrobić w ułamku sekundy drugi. Podobne rzeczy dzieją się za kulisami Bing firmy Microsoft.

Wyszukiwanie semantyczne podeszłoby do tego samego zapytania inaczej. Zamiast porównywać zapytanie ze wstępnie skompilowanym (i stale aktualizowanym) indeksem stron internetowych, o których wie, wyszukiwarka semantyczna porównuje zapytanie z dyskretnymi, wstępnie zgodnymi zestawy wiedzy ma dostępne. Pomyśl o zbiorach wiedzy jak o bazach danych: w rzeczywistości są one pełne danych, faktów i liczb na określony temat. Istnieją różne rodzaje zbiorów wiedzy. Jest kilka ciekawych ontologie (które reprezentują sformalizowane informacje, którymi można manipulować za pomocą reguł, funkcji i ograniczeń) i folksonomie, które zazwyczaj reprezentują wspólnie zdefiniowane zbiory wiedzy: Przykładami mogą być hashtagi i zakładki społecznościowe.

Zbiory wiedzy to coś więcej niż tylko pojemniki do przechowywania. Reprezentują także relacje między elementami bazy wiedzy i umożliwiają sensowne wykorzystanie informacji wiele zestawy wiedzy. Co więcej, relacje są często wyrażane w taki sposób, że można wyciągnąć dokładne logiczne wnioski bez konieczność przechowywania wszystkich możliwych danych pochodnych. To trochę antropomorfizacja, ale wyszukiwarki semantyczne mogą przeprowadzać podstawowe rozumowania i dedukcje na podstawie znanych im danych. W ramach tego procesu wyszukiwarki semantyczne są często projektowane tak, aby oceniać poziom pewności, jaką mają w stosunku do swoich wyników. Jeśli myślą, że nie wiedzą, o czym mówią, mogą milczeć. Jeśli są całkiem pewni, wypluną odpowiedź.

Jeśli więc w wyszukiwarce semantycznej wpiszesz „konferencja w Jałcie”, zajrzy ona do swoich zbiorów wiedzy i prawdopodobnie wyplunie kilka podstawowych faktów i liczb, być może „Od 4 do 11 lutego 1945 r.” Mogłoby to wskazywać na obecność Stalina, Churchilla i Franklina Roosevelta, a było to ważne wydarzenie nawet w ostatnich miesiącach wojny światowej. II. Całkiem podstawowe rzeczy.

Jeśli zapytasz dosłowną wyszukiwarkę „Czy konferencja w Jałcie odbyła się podczas wojny koreańskiej?” prawdopodobnie otrzymasz listę dziesięciu niebieskich linków. Ktoś może mieć odpowiedź.

Jeśli jednak zapytasz wyszukiwarkę semantyczną, powinieneś otrzymać jednowyrazową odpowiedź: „Nie”.

To to miejsce, w którym wyszukiwanie semantyczne staje się niezwykle interesujące.

Czy to nie jest Wolfram Alpha?

Jeśli te zapytania brzmią jak rzeczy, którymi ludzie rzucają Wolfram Alfa wyszukiwarka, masz całkowitą rację. Zamiast być indeksem stron internetowych, Wolfram Alpha stara się być silnikiem wiedzy. Wolfram Alpha nie polega na wyszukiwaniu rzeczy (np. strony internetowej), ale na pytaniu o odpowiedź. Wolfram Alpha w celu uzyskania wyników opiera się na wstępnie opracowanych bazach wiedzy, a firma regularnie dodaje i aktualizuje nowe bazy wiedzy. Niektóre z nich to wysoce wyspecjalizowane dane techniczne – takie jak informacje o pierwiastkach chemicznych lub genomie muszki owocowej – podczas gdy inne są bardziej kapryśne. Na przykład Wolfram Alpha wie całkiem sporo o rasach kotów.

Dopóki pozostajesz w zasięgu wiedzy Wolfram Alpha, może on przeprowadzić użyteczną analizę danych. Na przykład Wolfram Alpha może porównaj odległość skoków lwów i tygrysów. (Okazuje się, że są porównywalne, ale wydaje się, że tygrysy generalnie przewyższają lwy.) Ale jeśli chcesz wiedzieć jak daleko kangury potrafią skakać? Ups, przepraszam: brak dostępnych danych.

Ale nieudane zapytanie dotyczące chmielu kangura pokazuje trochę, jak Wolfram Alpha próbuje zrozumieć pewne rzeczy. Zanim udzieli odpowiedzi, silnik wskazuje, że zakłada, że „kangur” oznacza „kangury”, wallaby”, ale użytkownicy mogą przełączyć się na kangura antylopowego, kangura rudego lub wschodniego szarego kangur. Podobnie Wolfram Alpha zinterpretował „jak daleko może skoczyć kangur” jako zapytanie o „odległość skoku”, czyli konkretny punkt danych, jaki może zawierać na temat zwierząt. Okazuje się, że Wolfram Alpha nie ma obecnie takich danych, ale jego interpretacja zapytania jest bardzo ważna.

Czy to nie Siri?

Jeśli te zapytania brzmią jak rzeczy, którymi ludzie rzucają Siri w iPhonie 4S (ale pamiętaj, nie nowy iPad, który zadebiutuje w tym tygodniu), masz całkowitą rację. Należy jednak pamiętać, że Siri radzi sobie tylko z połową równania: rozumieniem zapytań użytkownika. Robiąc to, Siri podejmuje się bardzo trudnego problemu obliczeniowego polegającego na dokładnym rozpoznawaniu mowy użytkownika przez mikrofon w czasie rzeczywistym. To nie lada wyczyn, ale nie jest to wyszukiwarka semantyczna. Za kulisami Siri przekazuje zapytania do Wolfram Alpha, Yelp i (jeśli wszystko inne zawiedzie) preferowaną przez użytkownika wyszukiwarkę internetową. Jeśli zapytasz Siri: „Czy konferencja w Jałcie odbyła się podczas wojny koreańskiej”, prawdopodobnie odpowiesz, co dokładnie pytasz — w moim przypadku tak było — ale po prostu zaproponuje wykonanie tradycyjnego, dosłownego wyszukiwania w Internecie Ty.

Czego oczekiwać

Zainteresowanie Google wyszukiwaniem semantycznym jest prawdopodobnie dwojakie. Po pierwsze, prawdopodobnie chce wykorzystać tę technologię jako kolejny powód do przechwalania się, dzięki któremu wyprzedzi konkurencję – głównie Microsoft Bing. Bing od dawna ma współpraca z Wolfram Alpha zaprojektowane tak, aby pomóc wyszukiwarce w dostarczaniu bezpośrednich odpowiedzi, jeśli to możliwe. Jednak jak dotąd ani Bing, ani Google nie poczyniły znaczących postępów w kontaktach z konsumentami za pomocą bezpośrednich wyników wyszukiwania. Przecież większość codziennych użytkowników wyszukiwania prawdopodobnie nie wie, że istnieją (ograniczone) możliwości. Nawet użytkownikom, którzy są o nich świadomi, nawet Google wydaje się uważać, że tę technologię można zastosować tylko w przypadku 10–20 procent wyszukiwań. To dużo wyszukiwań, ale oznacza, że większość (80 do 90 procent) wyszukiwań nie będzie z nich korzystać.

Jednakże w miarę jak konsumenci szybko porzucają notebooki, komputery stacjonarne i tradycyjne platformy komputerowe, możliwość udzielania krótkich, łatwo zrozumiałych odpowiedzi na skomplikowane zapytania może stać się bardzo ważne w mobilnym świecie. W przypadku użytkowników, którzy prowadzą samochód lub w inny sposób nie chcą bawić się klawiaturami lub klawiaturami ekranowymi, możliwość odpowiadania na pytania mówione, takie jak „Czy Golden Gate Park większy niż Central Park? lub „Którędy do mieszkania Malcolma?” z prostymi odpowiedziami, takimi jak „Tak” i „Skręć w lewo”, mogą być nieocenionym wyróżnikiem dla urządzeń mobilnych platformy.

Prawie na pewno właśnie tam firmy takie jak Apple i Google chcą zastosować tę technologię.

* Tombaugh po raz pierwszy zidentyfikował Plutona jako poruszający się obiekt 18 lutego 1930 roku, ale Pluton był nieświadomie dostrzeżony już kilka razy wcześniej. Najstarszy znany obecnie egzemplarz pochodzi z 1909 r. Widzieć? Wiedza jest śliska.

Zdjęcie za pośrednictwem: Annette Shaff / Shutterstock.com

Zalecenia redaktorów

Cały Internet należy teraz do sztucznej inteligencji Google
Nie musisz używać Binga – wyszukiwarka Google też ma teraz sztuczną inteligencję
Ups — wersja demonstracyjna AI Google Bard została obalona przez pierwszy wynik wyszukiwania
Oto, jak wyszukiwarka Google planuje uporać się z przynętą na kliknięcia
Jak usunąć dane osobowe z wyszukiwarki Google

Inteligentniejsze wyszukiwanie: dlaczego „wyszukiwanie semantyczne” w końcu pozwoli Google Cię zrozumieć

Co to jest wyszukiwanie semantyczne?

Czy Google już tego nie robi?

Czym różni się wyszukiwanie semantyczne

Czy to nie jest Wolfram Alpha?

Czy to nie Siri?

Czego oczekiwać

Zalecenia redaktorów

Kategorie

Niedawny

Mężczyzna zostaje zatrzymany na kanadyjskiej granicy za nieodblokowanie telefonu

Badanie: Prawie 80 procent studentów nie potrafi rozszyfrować kodów QR

PayPal walczy z phishingiem za pomocą... breloków