Amir Efrati van de Wall Street Journal heeft zijn wenkbrauwen opgetrokken met een artikel (abonnement vereist) zegt dat Google eraan werkt om zijn rivalen voor te blijven op het gebied van zoeken op internet door meer zogenaamde ‘semantische zoektechnologie’ te introduceren. Het idee is dat het zoekvak van Google niet alleen een plek zou zijn waar gebruikers trefwoorden of specifiek gevormde zoekopdrachten kunnen typen, maar een vak met een daadwerkelijke zoekfunctie. begrip van veel van de termen, namen, werkwoorden en verwijzingen die mensen intypen – en die kennis kunnen toepassen op de zoekopdrachten van gebruikers. In theorie zou semantisch zoeken resultaten moeten kunnen opleveren die de intentie van de zoeker weerspiegelen in sommige gevallen verbetert het vermogen van Google om meteen een antwoord te geven zonder gebruikers naar een ander te verwijzen plaats.
Maar wacht: is dit iets nieuws? Google niet al een paar antwoorden vooraan zetten? En hoe zou semantisch zoeken Google kunnen helpen zijn leidende positie op het gebied van zoeken op internet te behouden?
Aanbevolen video's
Wat is semantisch zoeken?
Kortom, semantiek heeft veel meer gemeen met Watson, de supercomputertoepassing van IBM handig verslagen mensen bij Gevaar! dan met het dialoogvenster Zoeken in Microsoft Word.
Grof gezegd valt de wereld van geautomatiseerd zoeken uiteen in twee typen:
Letterlijk zoeken (soms genoemd navigatie zoeken) zoekt naar exacte overeenkomsten voor sommige of alle ingevoerde termen en retourneert overeenkomende items, of het nu bestanden, webpagina's, producten of een andere afzonderlijke informatie-eenheid zijn. Letterlijk zoeken kan worden uitgebreid met zaken als stammatching, conjugaten en associaties die de zoekopdracht op nuttige manieren uitbreiden of beperken - dus zoeken naar 'vlieg' kan ook 'vlucht' opleveren. Letterlijk zoeken is waar we tegenwoordig het meest bekend mee zijn, deels omdat dit voor computers het gemakkelijkst is presteren.
Semantisch zoeken verschilt op twee manieren van letterlijk zoeken. In de eerste plaats probeert semantisch zoeken dat te doen begrijpen wat een gebruiker vraagt in een zoekopdracht door deze in context te plaatsen door middel van analyse van de termen en het taalgebruik van de zoekopdracht. Deze analyse wordt uitgevoerd op basis van strak vooraf samengestelde kennispools, die mogelijk kennis over de gebruiker omvatten. Ten tweede probeert semantisch zoeken, in plaats van een reeks bestanden, webpagina's, producten of andere items terug te geven, een direct antwoord op een vraag. Als je een semantische zoekmachine vraagt: “Wanneer werd Pluto ontdekt?” het zou kunnen antwoorden: “Pluto werd op 18 februari 1930 ontdekt door Clyde Tombaugh*”, waar een letterlijke zoekmachine hoogstwaarschijnlijk links zou retourneren naar webpagina’s die de woorden “ontdekt” en “Pluto” bevatten.
Het blijkt dat letterlijk zoeken en semantisch zoeken goed zijn voor verschillende taken. Letterlijk zoeken is geweldig wanneer een gebruiker naar een specifiek zoekwoord zoekt ding, of dat nu een bestand, webpagina, document, product, album of ander afzonderlijk item is. Semantisch zoeken blijkt daarentegen nuttiger te zijn wanneer een gebruiker specifiek zoekt informatie - zoals een datum, nummer, tijd, plaats of naam.
Gedeeltelijk dankzij de toename van letterlijke zoektechnologie in alles, van tekstverwerkers tot webzoekmachines, zijn we het meest gewend aan letterlijk zoeken. De meesten van ons weten al hoe we letterlijk zoeken kunnen manipuleren om ons bij de eerste poging dichter bij wat we willen te brengen. Volgens het WSJ-artikel van Efrati gelooft Google echter dat semantische zoektechnologie directe antwoorden kan bieden op tussen de 10 en 20 procent van de zoekopdrachten op internet. Volgens Comscore, Google verwerkte 11,7 miljard zoekopdrachten alleen al in de Verenigde Staten in februari 2012. Met semantische zoekmogelijkheden hadden meer dan 2,3 miljard van die zoekopdrachten rechtstreeks kunnen worden beantwoord, in plaats van mensen naar andere webpagina's en sites te sturen.
Doet Google dit niet al?
Als u Google Web Search überhaupt heeft gebruikt, denkt u waarschijnlijk: "Maar wacht, Google doet dit al!" Typ “huidige tijd in Tokio" of "hoe hoog is de Mount Everest' en Google zal zijn beste inschatting maken van een nauwkeurig antwoord bovenaan de zoekresultaten. Google citeert zelfs bronnen voor zijn antwoord, en sommige van die bronnen staan in de klassieke ‘tien blauwe links’ onder het antwoord. (Google meldt dat de Mount Everest trouwens 8.848 meter hoog is.)
Om eerlijk te zijn, dit is een van de vele nuttige mogelijkheden die Google in zijn zoekbalk heeft ingebouwd: het doet (geavanceerde) wiskunde, voert eenheids- en valutaconversies, en haal zaken op zoals vluchtinformatie en aanvangstijden van lokale films - u hoeft geen ingewikkelde dingen uit te typen vraag. Het kan ook gebruikmaken van een aantal openbare gegevensbronnen. Als u bijvoorbeeld 'bevolking Mexico” in het zoekvak worden gegevens van de Wereldbank weergegeven. De respons vandaag is 113.423.047 mensen.
De inspanningen van Google om directe antwoorden te geven op sommige soorten vragen vallen echter vrij snel weg, omdat die functies dat grotendeels zijn geïmplementeerd als speciale gevallen voor de letterlijke zoekmachine van Google, in plaats van als een semantische zoekopdracht die probeert te begrijpen wat de gebruiker wil. Typ “hoe hoog is de Mount Everest' (let op de spelling) in het zoekvak, en Google probeert niet eens een antwoord te geven: Google Zoeken weet niet dat 'mt' 'mount' betekent. Op dezelfde manier, als Google heeft vastgesteld dat uw huidige locatie zich niet in Mexico bevindt (en als Google uw locatie niet kent, wordt dit geraden op basis van uw IP-adres En, Nee, je kunt je niet afmelden) op zoek naar "bevolking Mexico-stad'kan een aantal onverwachte resultaten opleveren. Er wonen toch zeker meer dan 10.852 mensen in Mexico-Stad, toch?
Hoe semantisch zoeken anders is
Semantisch zoeken probeert dit soort blunders op twee manieren te elimineren. In de eerste plaats probeert het de situatie nauwkeuriger te begrijpen bedoeling achter een bepaalde vraag. Ten tweede probeert het de elementen van die vraag te vergelijken met vooraf samengestelde pools van diepgaande kennis om te zien of er een betekenisvol antwoord uit kan komen.
Wanneer u een zoekopdracht naar een letterlijke zoekmachine als Google stuurt, wordt deze niet meteen doorgestuurd elke site op internet, bekijk ze en rapporteer een lijst met sites die volgens hem het beste bij u passen voorwaarden. In plaats daarvan laat Google softwareprogramma's voortdurend het internet afspeuren naar nieuwe sites en nieuwe webpagina's, die een inhoudsopgave van alle pagina's die ze vinden. Hoewel dit een enorme vereenvoudiging is, wanneer gebruikers een zoekopdracht typen zoals 'Conferentie van Jalta”, kijkt Google naar die index voor pagina's die overeenkomen met zowel 'Jalta' als 'conferentie', en voor pagina's waarop beide termen in de buurt van elkaar staan (bijvoorbeeld binnen 8 of 10 woorden). Google verzamelt vervolgens de URL's voor die pagina's, sorteert op de interne PageRank (de maatstaf van Google voor de relatieve verdiensten van een pagina, waarbij links ernaar als positieve stemmen worden geteld) en retourneert een lijst.
Het databeheer en de engineering achter een dergelijk proces zijn zowel ontmoedigend als gigantisch, en Google ook verdient een compliment omdat hij dit voor elkaar heeft gekregen, vooral omdat Google dit vaak in een fractie van een seconde kan doen seconde. Soortgelijke dingen gebeuren achter de schermen bij Microsoft's Bing.
Een semantische zoekopdracht zou dezelfde zoekopdracht anders benaderen. In plaats van een zoekopdracht te vergelijken met een vooraf samengestelde (en voortdurend bijgewerkte) index van webpagina's die hij kent, vergelijkt een semantische zoekmachine de zoekopdracht met discrete, vooraf ingevulde kennis sets het beschikbaar heeft. Denk aan kennissets zoals databases: in wezen zitten ze vol met gegevens, feiten en cijfers over een bepaald onderwerp. Er zijn verschillende soorten kennissets. Er zijn een paar interessante ontologieën (die geformaliseerde informatie vertegenwoordigen die kan worden gemanipuleerd met regels, functies en beperkingen) en folksonomieën, die meestal gezamenlijk gedefinieerde kennissets vertegenwoordigen: voorbeelden zijn hashtagging en sociale bladwijzers.
Kennissets zijn meer dan alleen opslagbakken. Ze vertegenwoordigen ook relaties tussen items in de kennisbank en maken het mogelijk dat informatie op zinvolle wijze wordt gebruikt meerdere kennis sets. Bovendien worden relaties vaak op zo'n manier uitgedrukt dat er nauwkeurige logische gevolgtrekkingen kunnen worden gemaakt zonder alle mogelijke afgeleide gegevens moeten opslaan. Dit is een beetje antropomorfiserend, maar semantische zoekmachines kunnen basisredeneringen en gevolgtrekkingen uitvoeren op basis van de gegevens waar ze kennis van hebben. Als onderdeel van dat proces zijn semantische zoekmachines vaak ontworpen om de mate van vertrouwen in hun afleidingen te beoordelen. Als ze denken dat ze niet weten waar ze het over hebben, blijven ze misschien zwijgen. Als ze er vrij zeker van zijn, spugen ze een antwoord uit.
Dus als je de “Jalta-conferentie” in een semantische zoekmachine invoert, zou deze in zijn kennissets kijken en waarschijnlijk enkele basisfeiten en cijfers uitspugen, misschien “4 tot 11 februari 1945.” Het zou erop kunnen wijzen dat Stalin, Churchill en Franklin Roosevelt aanwezig waren, en het was zelfs in de laatste maanden van de Wereldoorlog een belangrijke gebeurtenis II. Vrij fundamentele dingen.
Als je het aan een letterlijke zoekmachine vraagt “Vond de Conferentie van Jalta plaats tijdens de Koreaanse Oorlog?'Je krijgt waarschijnlijk gewoon een lijst met tien blauwe links. Misschien heeft iemand een antwoord.
Als u echter een semantische zoekmachine vraagt, zou u een antwoord van één woord moeten krijgen: "Nee."
Dat is waar semantisch zoeken ongelooflijk interessant wordt.
Is dit niet Wolfram Alpha?
Als deze vragen klinken als het soort dingen dat mensen naar de Wolfram Alpha zoekmachine, je hebt helemaal gelijk. In plaats van een index van webpagina's te zijn, probeert Wolfram Alpha een kennismotor te zijn. Wolfram Alpha gaat niet over het zoeken naar iets (zoals een webpagina), maar over het vragen om een antwoord. Wolfram Alpha vertrouwt op vooraf ingevulde kennisbanken om zijn resultaten te produceren, en het bedrijf voegt regelmatig nieuwe kennisbanken toe en werkt deze bij. Sommige zijn zeer gespecialiseerde technische gegevens – zoals informatie over chemische elementen of het genoom van de fruitvlieg – terwijl andere meer grillig zijn. Wolfram Alpha weet bijvoorbeeld heel veel over kattenrassen.
Zolang je binnen de grenzen van de kennis van Wolfram Alpha blijft, kan het een nuttige analyse van de gegevens uitvoeren. Wolfram Alpha kan dat bijvoorbeeld vergelijk de springafstanden van leeuwen en tijgers. (Het blijkt dat ze vergelijkbaar zijn, maar tijgers lijken over het algemeen de leeuwen te verslaan.) Maar als je het wilt weten hoe ver kangoeroes kunnen springen? Oeps, sorry: geen gegevens beschikbaar.
Maar de mislukte vraag over kangoeroehop laat iets zien over hoe Wolfram Alpha de dingen probeert te begrijpen. Voordat de engine een antwoord geeft, geeft hij aan dat hij ervan uitgaat dat ‘kangoeroe’ ‘kangoeroes’ betekent. wallabies”, maar gebruikers kunnen overstappen op de antilopine-kangoeroe, de rode kangoeroe of de oostelijke grijze kangoeroe kangoeroe. Op dezelfde manier heeft Wolfram Alpha ‘hoe ver kan een kangoeroe springen’ geïnterpreteerd als een vraag naar ‘springafstand’, een specifiek gegevenspunt dat het over dieren zou kunnen hebben. Het blijkt dat Wolfram Alpha momenteel niet over die gegevens beschikt, maar de interpretatie van de vraag is erg belangrijk.
Is dit niet Siri?
Als deze vragen klinken als het soort dingen dat mensen naar Siri gooien op de iPhone 4S (maar onthoud: niet de nieuwe iPad die deze week debuteert), heb je helemaal gelijk. Het is echter belangrijk om te onthouden dat Siri slechts de helft van het probleem aanpakt: het begrijpen van de vragen van gebruikers. Door dit te doen, pakt Siri het zeer lastige computerprobleem aan: het nauwkeurig en in realtime herkennen van de spraak van een gebruiker via een microfoon. Dat is geen geringe prestatie, maar het is geen semantische zoekmachine. Achter de schermen geeft Siri vragen door aan Wolfram Alpha, Yelp en (als al het andere niet lukt) de favoriete webzoekmachine van de gebruiker. Als je Siri vraagt: “Heeft de Jalta-conferentie plaatsgevonden tijdens de Koreaanse oorlog”, dan herkent het apparaat misschien precies wat je vraagt – dat deed het voor mij – maar het gaat alleen maar aanbieden om een ouderwetse, letterlijke zoekopdracht op internet uit te voeren naar Jij.
Wat te verwachten
De interesse van Google in semantisch zoeken is waarschijnlijk tweeledig. Ten eerste wil het de technologie waarschijnlijk gebruiken als een extra opschepperij waarmee het zijn concurrentie – vooral Microsoft Bing – een voorsprong geeft. Bing heeft al lang een samenwerking met Wolfram Alpha ontworpen om de zoekmachine te helpen waar mogelijk directe antwoorden te geven. Tot nu toe hebben noch Bing noch Google echter grote vooruitgang geboekt bij consumenten met directe zoekresultaten. De meeste dagelijkse zoekgebruikers weten immers waarschijnlijk niet dat de (beperkte) mogelijkheden al bestaan. Zelfs voor gebruikers die zich hiervan bewust zijn, lijkt zelfs Google te denken dat de technologie slechts toepasbaar is op 10 tot 20 procent van de zoekopdrachten. Dat zijn veel zoekopdrachten, maar betekent dat de meerderheid (80 tot 90 procent) van de zoekopdrachten er geen gebruik van zal maken.
Naarmate consumenten echter notebooks, desktops en traditionele computerplatforms snel verlaten, kan de mogelijkheid om korte, gemakkelijk te begrijpen antwoorden op ingewikkelde zoekopdrachten te geven steeds belangrijker worden. erg belangrijk in de mobiele wereld. Voor gebruikers die autorijden of anderszins niet met toetsenborden of schermtoetsenborden willen spelen, is de mogelijkheid om te reageren op gesproken vragen zoals 'Is Golden Gate Park groter dan Central Park?” of 'Welke weg naar Malcolms flat?' met eenvoudige antwoorden als ‘Ja’ en ‘Neem de volgende links’ kunnen voor mobiele apparaten van onschatbare waarde zijn platforms.
Dat is vrijwel zeker waar bedrijven als Apple en Google de technologie willen gebruiken.
* Tombaugh identificeerde Pluto voor het eerst als een bewegend object op 18 februari 1930, maar Pluto was al verschillende keren eerder onbewust opgemerkt. De vroegst bekende datum dateert uit 1909. Zien? Kennis is glibberig.
Foto via: Annette Shaff / Shutterstock.com
Aanbevelingen van de redactie
- Het hele internet is nu eigendom van de AI van Google
- U hoeft Bing niet te gebruiken: Google Search beschikt nu ook over AI
- Oeps - Google Bard AI-demo wordt weerlegd door het eerste zoekresultaat
- Hier leest u hoe Google Zoeken clickbait wil aanpakken
- Persoonlijke informatie verwijderen uit Google Zoeken