Căutare mai inteligentă: de ce „căutarea semantică” va lăsa în sfârșit Google să vă înțeleagă

De ce-căutarea-semantică'-va-la-la-sfinţit-Google-vă-înţelege

Amir Efrati de la Wall Street Journal a ridicat sprâncenele cu un articol (este necesar un abonament) spunând că Google lucrează pentru a rămâne în fața concurenților săi în căutarea pe Internet prin introducerea mai multor așa-numite tehnologii de „căutare semantică”. Ideea este că caseta de căutare Google nu ar fi doar un loc în care utilizatorii pot introduce cuvinte cheie sau interogări specifice, ci o casetă care avea un înţelegere a multor termeni, nume, verbe și referințe introduse de oameni - și ar putea aplica aceste cunoștințe la căutările utilizatorilor. În teorie, căutarea semantică ar trebui să poată returna rezultate care reflectă intenția unui căutător și în unele cazuri îmbunătățesc capacitatea Google de a oferi un răspuns imediat, fără a trimite utilizatorii către altul site-ul.

Dar stai – este ceva nou? Nu Google deja pune niște răspunsuri imediat? Și cum ar putea căutarea semantică să ajute Google să-și mențină liderul în domeniul căutării pe Internet?

Videoclipuri recomandate

Ce este căutarea semantică?

Pe scurt, semantica are mult mai multe în comun cu Watson, aplicația de supercomputing IBM care oameni învinşi cu uşurinţă la Primejdie! decât face cu dialogul Găsiți din Microsoft Word.

Vorbind, lumea căutării computerizate se împarte în două tipuri:

Căutare literală (uneori numit căutare de navigație) caută potriviri exacte pentru unii sau toți termenii introduși și returnează elementele care se potrivesc - fie fișiere, pagini web, produse sau alte unități de informații discrete. Căutarea literală poate fi mărită cu lucruri precum potrivirea tulpinilor, conjugatele și asocierile care extind sau restricționează căutarea în moduri utile - deci căutarea „zbură” poate apăsa și „zbor”. Căutarea literală este ceea ce suntem cel mai familiarizați astăzi, în parte pentru că este cel mai ușor de utilizat pentru computere. a executa.

Căutare semantică diferă de căutarea literală în două moduri. În primul rând, căutarea semantică încearcă a intelege ceea ce întreabă utilizatorul într-o interogare, plasându-l în context prin analiza termenilor și limbajului interogării. Această analiză este efectuată pe baza unor bazine de cunoștințe strâns pre-compilate, care pot include cunoștințe despre utilizator. În al doilea rând, în loc să returneze un set de fișiere, pagini web, produse sau alte elemente, căutarea semantică încearcă să ofere un direct răspuns la o întrebare. Dacă întrebați un motor de căutare semantică „Când a fost descoperit Pluto?” ar putea răspunde „Pluto a fost descoperit pe 18 februarie 1930 de Clyde Tombaugh*”, unde un motor de căutare literal ar returna cel mai probabil link-uri către pagini Web care conțin cuvintele „descoperit” și „Pluto”.

Se pare că căutarea literală și căutarea semantică sunt bune pentru diferite sarcini. Căutarea literală este excelentă atunci când un utilizator caută un anume lucru, indiferent dacă acesta este un fișier, o pagină Web, un document, un produs, un album sau un alt element discret. Căutarea semantică, pe de altă parte, se dovedește a fi mai utilă atunci când un utilizator caută anumite informații informație — cum ar fi o dată, un număr, o oră, un loc sau un nume.

Datorită în parte proliferării tehnologiei de căutare literală în orice, de la procesoare de text la motoarele de căutare web, suntem cei mai obișnuiți cu căutarea literală. Cei mai mulți dintre noi știu deja cum să manipulăm căutarea literală pentru a ne apropia de ceea ce ne dorim din prima încercare. Cu toate acestea, conform articolului WSJ al lui Efrati, Google consideră că tehnologia de căutare semantică ar putea oferi răspunsuri directe la între 10 și 20% din căutările pe Web. Potrivit Comscore, Google a gestionat 11,7 miliarde de căutări numai în Statele Unite în februarie 2012. Cu capabilitățile de căutare semantică, la peste 2,3 miliarde dintre aceste căutări ar fi putut primi răspuns direct, în loc să trimită oamenii către alte pagini web și site-uri.

Google nu face deja asta?

Dacă ați folosit căutarea Google pe Web, probabil vă gândiți „Dar stați, Google deja face asta!” Tip "ora curentă în Tokyo” sau ”cât de înalt este Muntele Everest” iar Google va pune cea mai bună presupunere a unui răspuns precis în partea de sus a rezultatelor căutării. Google chiar citează surse pentru răspunsul său, iar unele dintre aceste surse vor fi în clasicele „zece link-uri albastre” de sub răspuns. (Google raportează că Muntele Everest are 8.848 de metri înălțime, apropo.)

Pentru a fi corect, aceasta este una dintre multele capabilități utile pe care Google le-a integrat în bara de căutare: va face matematică (sofisticată), va efectua conversii de unități și monede și afișați lucruri precum informații despre zboruri și orele locale de difuzare a filmelor - nu este nevoie să introduceți un text complicat interogare. De asemenea, poate accesa unele surse publice de date. De exemplu, tastând „populația Mexic” în caseta de căutare vor afișa date de la Banca Mondială. Răspunsul astăzi este de 113.423.047 de persoane.

Cu toate acestea, eforturile Google de a oferi răspunsuri directe la anumite tipuri de întrebări scad destul de repede, deoarece aceste caracteristici sunt în mare parte implementat ca cazuri speciale pentru motorul de căutare literal al Google, mai degrabă decât ca o căutare semantică care încearcă să înțeleagă ceea ce utilizatorul vrea. Tip "cât de înalt este mt Everest” (notați ortografia) în caseta de căutare, iar Google nici măcar nu încearcă să ofere un răspuns: Căutarea Google nu știe că „mt” înseamnă „mont”. În mod similar, dacă Google a stabilit că locația dvs. actuală nu este în Mexic (și, dacă Google nu are locația dvs., va ghici după adresa dvs. IP și, nu, nu puteți renunța) căutare de "populație orașul mexico” ar putea returna niște rezultate neașteptate. Cu siguranță Mexico City găzduiește peste 10.852 de oameni, nu?

Cât de diferită este căutarea semantică

Căutarea semantică încearcă să elimine acest tip de gafe în două moduri. În primul rând, încearcă să înțeleagă mai precis intentie în spatele unei anumite interogări. În al doilea rând, încearcă să potrivească elementele acelei interogări cu grupuri pre-compilate de cunoștințe profunde pentru a vedea dacă poate găsi un răspuns semnificativ.

Când trimiteți o interogare către un motor de căutare literal, cum ar fi Google, aceasta nu se închide instantaneu la fiecare site de pe Internet, aruncați o privire peste ele și raportați o listă de site-uri care consideră că se potrivesc cel mai bine cu dvs termeni. În schimb, Google are programe software care caută în mod constant pe internet site-uri noi și pagini web noi, care creează un index din toate paginile pe care le găsesc. Deși aceasta este o simplitate excesivă, atunci când utilizatorii introduc o interogare de căutare precum „Conferința de la Yalta”, Google analizează acel index pentru paginile care se potrivesc atât cu „Yalta”, cât și cu „conferință”, precum și pentru paginile care au ambii termeni în apropiere unul de celălalt (să zicem, în 8 sau 10 cuvinte). Google colectează apoi adresele URL pentru acele pagini, sortează după PageRank-ul său intern (măsura Google a meritelor relative ale unei pagini care contorizează, practic, linkurile către aceasta ca voturi pozitive) și returnează o listă.

Gestionarea datelor și ingineria din spatele unui astfel de proces este atât descurajantă, cât și mamut, și Google merită felicitări pentru că a reușit - mai ales că Google este adesea capabil să facă acest lucru într-o fracțiune de a al doilea. Lucruri similare se întâmplă în culise la Bing de la Microsoft.

O căutare semantică ar aborda aceeași interogare diferit. În loc să compare o interogare cu un index precompilat (și actualizat în mod constant) al paginilor Web despre care știe, un motor de căutare semantică compară interogarea cu un index discret, pre-respectat. seturi de cunoștințe are disponibil. Gândiți-vă la seturi de cunoștințe precum bazele de date: în esență, sunt pline de date, fapte și cifre despre un anumit subiect. Există diferite tipuri de seturi de cunoștințe. Câteva dintre ele interesante sunt ontologii (care reprezintă informații formalizate care pot fi manipulate cu reguli, funcții și restricții) și folksonomii, care reprezintă de obicei seturi de cunoștințe definite în colaborare: exemple ar fi hashtagging-ul și marcajele sociale.

cautare Google

Seturile de cunoștințe sunt mai mult decât simple containere de depozitare. Ele reprezintă, de asemenea, relații între elementele din baza de cunoștințe și permit ca informațiile să fie utilizate în mod semnificativ în întreaga lume multiplu seturi de cunoștințe. În plus, relațiile sunt adesea exprimate în așa fel încât să se poată face inferențe logice precise fără trebuind să stocheze toate datele derivate posibile. Acest lucru este un pic antropomorfizat, dar motoarele de căutare semantice pot efectua raționament și deducție de bază asupra datelor despre care știu. Ca parte a acestui proces, motoarele de căutare semantice sunt adesea concepute pentru a evalua nivelul de încredere pe care îl au în derivările lor. Dacă nu cred că știu despre ce vorbesc, ar putea rămâne muți. Dacă sunt destul de siguri, vor scuipa un răspuns.

Deci, dacă introduceți „conferința de la Yalta” într-un motor de căutare semantică, acesta ar căuta în seturile sale de cunoștințe și, probabil, ar scuipa câteva fapte și cifre de bază, poate „4-11 februarie 1945.” Ar putea indica ca Stalin, Churchill și Franklin Roosevelt au participat și a fost un lucru important chiar și în ultimele luni ale războiului mondial. II. Lucruri destul de de bază.

Dacă întrebi un motor de căutare literal „Conferința de la Yalta a avut loc în timpul războiului din Coreea?„, probabil, veți primi o listă cu zece link-uri albastre. S-ar putea să aibă cineva un răspuns.

Cu toate acestea, dacă întrebați un motor de căutare semantică, ar trebui să primiți un răspuns dintr-un singur cuvânt: „Nu”.

Acea este locul în care căutarea semantică devine incredibil de interesantă.

Acesta nu este Wolfram Alpha?

Dacă aceste interogări sună ca genul de lucruri pe care oamenii le aruncă Wolfram Alpha motor de căutare, ai perfectă dreptate. În loc să fie un index al paginilor Web, Wolfram Alpha încearcă să fie un motor de cunoștințe. Wolfram Alpha nu se referă la căutarea unui lucru (cum ar fi o pagină Web), ci în a cere un răspuns. Wolfram Alpha se bazează pe baze de cunoștințe preconformate pentru a-și produce rezultatele, iar compania adaugă și actualizează noi baze de cunoștințe în mod regulat. Unele sunt date tehnice foarte specializate - cum ar fi informații despre elemente chimice sau genomul muștei fructelor - în timp ce altele sunt mai capricioase. De exemplu, Wolfram Alpha știe destul de multe despre rasele de pisici.

Atâta timp cât rămâneți în sferele cunoștințelor lui Wolfram Alpha, acesta poate efectua o analiză utilă a datelor. De exemplu, Wolfram Alpha poate comparați distanțele de sărituri ale leilor și ale tigrilor. (Se dovedește că sunt comparabile, dar tigrii par să devină, în general, leii.) Dar dacă vrei să știi cât de departe pot sări cangurii? Hopa, scuze: nu există date disponibile.

Dar interogarea eșuată privind hameiul cangur arată puțin despre modul în care Wolfram Alpha încearcă să înțeleagă lucrurile. Înainte de a oferi un răspuns, motorul indică faptul că presupune că „cangur” înseamnă „canguri, wallabies”, dar utilizatorii pot trece la cangurul antilopin, cangurul roșu sau gri de est cangur. În mod similar, Wolfram Alpha a interpretat „cât de departe poate sări un cangur” ca fiind o interogare pentru „distanța de săritură”, un punct de date specific pe care l-ar putea avea despre animale. Se pare că Wolfram Alpha nu are în prezent acele date, dar interpretarea interogării este foarte importantă.

Nu asta e Siri?

Dacă aceste interogări sună ca genul de lucruri pe care oamenii le aruncă lui Siri în iPhone 4S (dar, amintiți-vă, nu noul iPad care debutează săptămâna aceasta), ai perfectă dreptate. Cu toate acestea, este important să ne amintim că Siri abordează doar o jumătate din ecuație: înțelegerea interogărilor utilizatorilor. Procedând astfel, Siri se confruntă cu problema de calcul foarte dificilă de a recunoaște cu acuratețe vorbirea unui utilizator printr-un microfon în timp real. Aceasta nu este o operație mică, dar nu este un motor de căutare semantic. În culise, Siri transmite interogări către Wolfram Alpha, Yelp și (dacă toate celelalte nu reușesc) motorului de căutare web preferat de utilizator. Dacă o întrebi pe Siri „S-a întâmplat Conferința de la Yalta în timpul războiului din Coreea”, poate recunoaște cu exactitate ce anume întrebi – pentru mine a făcut-o – dar se va oferi doar să fac o căutare literală pe web de școală veche pentru tu.

siri

La ce să te aștepți

Interesul Google pentru căutarea semantică este probabil dublu. În primul rând, probabil că dorește să folosească tehnologia ca un alt punct de laudă care o pune în fața concurenței sale - în principal Microsoft Bing. Bing are de mult un parteneriat cu Wolfram Alpha conceput pentru a ajuta motorul de căutare să ofere răspunsuri directe atunci când este posibil. Cu toate acestea, până acum nici Bing, nici Google nu au făcut incursiuni majore cu consumatorii cu rezultate directe de căutare. La urma urmei, majoritatea utilizatorilor de căutare de zi cu zi probabil nu știu că capabilitățile (limitate) există deja. Chiar și pentru utilizatorii care le cunosc, chiar și Google pare să creadă că tehnologia este aplicabilă doar la 10 până la 20% din căutări. Sunt multe căutări, dar înseamnă că majoritatea (80 până la 90 la sută) căutări nu le vor folosi.

Cu toate acestea, pe măsură ce consumatorii abandonează rapid notebook-urile, desktop-urile și platformele de calcul tradiționale, capacitatea de a oferi răspunsuri scurte și ușor de înțeles la interogări complicate de căutare ar putea deveni foarte important în lumea mobilă. Pentru utilizatorii care conduc sau nu sunt dispuși să se joace cu tastaturile sau tastaturile de pe ecran, capacitatea de a răspunde la întrebări vocale precum „Este Golden Gate Park mai mare decât Central Park?” sau „În ce drum până la apartamentul lui Malcolm?” cu răspunsuri simple precum „Da” și „Ia următoarea stângă” ar putea fi diferențieri de neprețuit pentru dispozitive mobile platforme.

Acesta este aproape sigur locul în care companii precum Apple și Google caută să ia tehnologia.

* Tombaugh l-a identificat pentru prima dată pe Pluto ca fiind un obiect în mișcare pe 18 februarie 1930, dar Pluto a fost observat fără să vrea în câteva ocazii anterioare. Cel mai vechi cunoscut în prezent a fost în 1909. Vedea? Cunoașterea este alunecoasă.

Fotografie prin: Annette Shaff / Shutterstock.com

Recomandările editorilor

  • Tot internetul aparține acum IA Google
  • Nu trebuie să utilizați Bing – Căutarea Google are și acum AI
  • Hopa — demonstrația Google Bard AI este respinsă de primul rezultat al căutării
  • Iată cum intenționează Căutarea Google să abordeze clickbait
  • Cum să eliminați informațiile personale din căutarea Google