Recherche plus intelligente: pourquoi la « recherche sémantique » permettra enfin à Google de vous comprendre

Pourquoi-la-recherche-sémantique-permettra-enfin-à-Google-de-vous-comprendre

Amir Efrati du Wall Street Journal a fait sourciller avec un article (abonnement requis) affirmant que Google s'efforce de garder une longueur d'avance sur ses concurrents dans la recherche sur Internet en introduisant davantage de technologies dites de « recherche sémantique ». L’idée est que le champ de recherche de Google ne serait pas seulement un endroit permettant aux utilisateurs de saisir des mots-clés ou des requêtes spécifiquement formulées, mais un champ doté d’un véritable champ de recherche. compréhension de nombreux termes, noms, verbes et références que les gens saisissent – ​​et pourraient appliquer ces connaissances aux recherches des utilisateurs. En théorie, la recherche sémantique devrait être capable de renvoyer des résultats qui reflètent l’intention du chercheur. certains cas améliorent la capacité de Google à donner une réponse immédiate sans renvoyer les utilisateurs vers un autre site.

Mais attendez, est-ce quelque chose de nouveau? Google n'est-il pas déjà mettre quelques réponses dès le départ? Et comment la recherche sémantique pourrait-elle potentiellement aider Google à conserver son avance dans le secteur de la recherche sur Internet ?

Vidéos recommandées

Qu'est-ce que la recherche sémantique ?

En un mot, la sémantique a bien plus en commun avec Watson, l'application de calcul intensif d'IBM qui des humains vaincus haut la main à Péril! qu'avec la boîte de dialogue Rechercher dans Microsoft Word.

En gros, le monde de la recherche informatisée se divise en deux types :

Recherche littérale (appelé quelques fois recherche de navigation) recherche des correspondances exactes pour tout ou partie des termes saisis et renvoie les éléments correspondants, qu'il s'agisse de fichiers, de pages Web, de produits ou d'une autre unité d'information discrète. La recherche littérale peut être complétée par des éléments tels que la correspondance de tiges, les conjugués et les associations qui élargissent ou restreignent la recherche de manière utile. la recherche de « mouche » peut également correspondre à « vol ». La recherche littérale est ce que nous connaissons le mieux aujourd’hui, en partie parce que c’est la méthode la plus simple à utiliser pour les ordinateurs. effectuer.

Recherche sémantique diffère de la recherche littérale de deux manières. Premièrement, la recherche sémantique tente de comprendre ce qu’un utilisateur demande dans une requête en le plaçant dans son contexte grâce à l’analyse des termes et du langage de la requête. Cette analyse est menée sur la base de pools de connaissances étroitement précompilés, incluant potentiellement des connaissances sur l'utilisateur. Deuxièmement, au lieu de renvoyer un ensemble de fichiers, de pages Web, de produits ou d'autres éléments, la recherche sémantique tente de fournir un direct réponse à une question. Si vous demandez à un moteur de recherche sémantique « Quand Pluton a-t-il été découvert? il pourrait répondre « Pluton a été découvert le 18 février 1930 par Clyde Tombaugh*», où un moteur de recherche littéral renverrait très probablement des liens vers des pages Web contenant les mots « découvert » et « Pluton ».

Il s’avère que la recherche littérale et la recherche sémantique conviennent à différentes tâches. La recherche littérale est idéale lorsqu'un utilisateur recherche un élément spécifique chose, qu'il s'agisse d'un fichier, d'une page Web, d'un document, d'un produit, d'un album ou de tout autre élément discret. La recherche sémantique, en revanche, s'avère plus utile lorsqu'un utilisateur recherche des informations spécifiques. information - comme une date, un numéro, une heure, un lieu ou un nom.

Grâce en partie à la prolifération de la technologie de recherche littérale dans tous les domaines, des traitements de texte aux moteurs de recherche Web, nous sommes plus habitués à la recherche littérale. La plupart d’entre nous savent déjà comment manipuler la recherche littérale pour nous rapprocher de ce que nous voulons du premier coup. Cependant, selon l'article d'Efrati dans le WSJ, Google estime que la technologie de recherche sémantique pourrait fournir des réponses directes à entre 10 et 20 % des recherches sur le Web. Selon Comscore, Google traité 11,7 milliards de recherches rien qu'aux États-Unis en février 2012. Grâce aux capacités de recherche sémantique, plus de 2,3 milliards de ces recherches auraient pu recevoir une réponse directe, au lieu de renvoyer les internautes vers d'autres pages et sites Web.

Google ne le fait-il pas déjà ?

Si vous avez utilisé la recherche sur le Web Google, vous pensez probablement « Mais attendez, Google le fait déjà! » Taper "heure actuelle à Tokyo" ou "quelle est la hauteur du mont Everest" et Google mettra sa meilleure estimation d'une réponse précise en haut de ses résultats de recherche. Google cite même des sources pour sa réponse, et certaines de ces sources figureront dans les classiques « dix liens bleus » sous la réponse. (Au fait, Google rapporte que le mont Everest mesure 8 848 mètres de haut.)

Pour être honnête, il s’agit là d’une des nombreuses fonctionnalités utiles que Google a intégrées à sa barre de recherche: il fera des calculs (sophistiqués), effectuera conversions d'unités et de devises, et affichez des éléments tels que des informations sur les vols et les horaires des séances de cinéma locales - pas besoin de taper un texte compliqué requête. Il peut également exploiter certaines sources de données publiques. Par exemple, en tapant «population Mexique» dans le champ de recherche affichera les données de la Banque mondiale. La réponse aujourd’hui est de 113 423 047 personnes.

Cependant, les efforts de Google pour fournir des réponses directes à certains types de questions échouent assez rapidement, car ces fonctionnalités sont en grande partie limitées. implémenté comme des cas particuliers dans le moteur de recherche littéral de Google, plutôt que comme une recherche sémantique qui tente de comprendre ce que l'utilisateur veut. Taper "quelle est la hauteur du mont Everest» (notez l'orthographe) dans le champ de recherche, et Google n'essaie même pas de fournir une réponse: la recherche Google ne sait pas que « mt » signifie « monter ». De même, si Google a déterminé que votre position actuelle n’est pas au Mexique (et si Google ne connaît pas votre position, il le devinera grâce à votre adresse IP). et, non, vous ne pouvez pas vous désinscrire) à la recherche de "population de la ville de Mexico» pourrait donner des résultats inattendus. La ville de Mexico abrite sûrement plus de 10 852 habitants, n'est-ce pas ?

En quoi la recherche sémantique est différente

La recherche sémantique tente d’éliminer ce genre de gaffes de deux manières. Premièrement, il tente de comprendre plus précisément le intention derrière une requête particulière. Deuxièmement, il tente de comparer les éléments de cette requête à des pools de connaissances approfondies précompilés pour voir s’il peut trouver une réponse significative.

Lorsque vous envoyez une requête à un moteur de recherche littéral comme Google, elle ne se compresse pas instantanément vers chaque site sur Internet, examinez-les et publiez une liste des sites qui, selon vous, correspondent le mieux à vos attentes. termes. Au lieu de cela, Google utilise des logiciels qui parcourent constamment Internet à la recherche de nouveaux sites et de nouvelles pages Web, ce qui crée un indice de toutes les pages qu'ils trouvent. Bien qu’il s’agisse d’une simplification excessive, lorsque les utilisateurs saisissent une requête de recherche telle que «Conférence de Yalta", Google recherche dans cet index les pages qui correspondent à la fois à "Yalta" et "conférence", ainsi que les pages qui contiennent les deux termes à proximité l'un de l'autre (disons, dans 8 ou 10 mots). Google collecte ensuite les URL de ces pages, les trie selon son PageRank interne (la mesure de Google des mérites relatifs d'une page qui compte essentiellement les liens vers celle-ci comme des votes positifs) et renvoie une liste.

La gestion des données et l'ingénierie derrière un processus comme celui-ci sont à la fois intimidantes et gigantesques, et Google mérite des félicitations pour avoir réussi – d’autant plus que Google est souvent capable de le faire en une fraction de temps. deuxième. Des choses similaires se produisent dans les coulisses de Bing de Microsoft.

Une recherche sémantique aborderait différemment la même requête. Plutôt que de comparer une requête à un index précompilé (et constamment mis à jour) de pages Web dont il a connaissance, un moteur de recherche sémantique compare la requête à des index discrets et pré-conformes. ensembles de connaissances il a à disposition. Pensez aux ensembles de connaissances comme des bases de données: au fond, ils regorgent de données, de faits et de chiffres sur un sujet particulier. Il existe différents types d’ensembles de connaissances. Quelques exemples intéressants sont ontologies (qui représentent des informations formalisées qui peuvent être manipulées avec des règles, des fonctions et des restrictions) et folksonomies, qui représentent généralement des ensembles de connaissances définis de manière collaborative: les exemples seraient les hashtags et les signets sociaux.

recherche Google

Les ensembles de connaissances sont bien plus que de simples bacs de stockage. Ils représentent également les relations entre les éléments de la base de connaissances et permettent d'utiliser les informations de manière significative dans tous les domaines. plusieurs ensembles de connaissances. De plus, les relations sont souvent exprimées de telle manière que des déductions logiques précises peuvent être tirées. sans devoir stocker toutes les données dérivées possibles. C’est un peu anthropomorphique, mais les moteurs de recherche sémantiques peuvent effectuer un raisonnement et des déductions de base sur les données dont ils ont connaissance. Dans le cadre de ce processus, les moteurs de recherche sémantiques sont souvent conçus pour évaluer le niveau de confiance qu’ils ont dans leurs dérivations. S’ils pensent ne pas savoir de quoi ils parlent, ils risquent de rester muets. S’ils en sont presque sûrs, ils cracheront une réponse.

Ainsi, si vous saisissez « conférence de Yalta » dans un moteur de recherche sémantique, celui-ci examinera ses ensembles de connaissances et crachera probablement quelques faits et chiffres de base, peut-être «Du 4 au 11 février 1945.» Cela pourrait indiquer que Staline, Churchill et Franklin Roosevelt étaient présents, et ce fut un événement important même dans les derniers mois de la Guerre mondiale. II. Des trucs assez basiques.

Si vous demandez à un moteur de recherche littéral «La Conférence de Yalta a-t-elle eu lieu pendant la guerre de Corée ?", vous n'obtiendrez probablement qu'une liste de dix liens bleus. On pourrait avoir une réponse.

Cependant, si vous posez la question à un moteur de recherche sémantique, vous devriez obtenir une réponse en un seul mot: « Non ».

Que C'est là que la recherche sémantique devient incroyablement intéressante.

N'est-ce pas Wolfram Alpha ?

Si ces requêtes ressemblent au genre de choses que les gens lancent au Wolfram Alpha moteur de recherche, vous avez tout à fait raison. Plutôt que d'être un index de pages Web, Wolfram Alpha tente d'être un moteur de connaissances. Wolfram Alpha ne consiste pas à rechercher quelque chose (comme une page Web), mais à demander une réponse. Wolfram Alpha s'appuie sur des bases de connaissances pré-constituées pour produire ses résultats, et l'entreprise ajoute et met régulièrement à jour de nouvelles bases de connaissances. Certaines sont des données techniques très spécialisées – comme des informations sur des éléments chimiques ou le génome de la mouche des fruits – tandis que d’autres sont plus fantaisistes. Par exemple, Wolfram Alpha en sait beaucoup sur les races de chats.

Tant que vous restez dans le domaine des connaissances de Wolfram Alpha, il peut effectuer une analyse utile des données. Par exemple, Wolfram Alpha peut comparez les distances de saut des lions et des tigres. (Il s'avère que c'est comparable, mais les tigres semblent généralement devancer les lions.) Mais si vous voulez savoir jusqu'où les kangourous peuvent sauter? Oups, désolé: aucune donnée disponible.

Mais la requête échouée sur le houblon kangourou montre un peu comment Wolfram Alpha essaie de comprendre les choses. Avant de fournir une réponse, le moteur indique qu'il suppose que « kangourou » signifie « kangourous, wallabies », mais les utilisateurs peuvent passer au kangourou antilopine, au kangourou rouge ou au kangourou gris de l'Est. kangourou. De même, Wolfram Alpha a interprété « jusqu’où un kangourou peut-il sauter » comme une requête sur la « distance de saut », un point de données spécifique qu’il pourrait avoir sur les animaux. Il s'avère que Wolfram Alpha ne dispose pas actuellement de ces données, mais son interprétation de la requête est très importante.

N'est-ce pas Siri ?

Si ces requêtes ressemblent au genre de choses que les gens lancent à Siri dans l'iPhone 4S (mais rappelez-vous, pas le nouvel iPad qui fait ses débuts cette semaine), vous avez tout à fait raison. Cependant, il est important de rappeler que Siri n’aborde que la moitié de l’équation: comprendre les requêtes des utilisateurs. Ce faisant, Siri s’attaque au problème informatique très difficile de reconnaître avec précision la parole d’un utilisateur au-dessus d’un microphone en temps réel. Ce n’est pas une mince affaire, mais ce n’est pas un moteur de recherche sémantique. Dans les coulisses, Siri transmet les requêtes à Wolfram Alpha, Yelp et (si tout le reste échoue) au moteur de recherche Web préféré de l'utilisateur. Si vous demandez à Siri « La conférence de Yalta a-t-elle eu lieu pendant la guerre de Corée », il peut reconnaître avec précision ce qui s'est passé. vous demandez - c'est le cas pour moi - mais il va simplement proposer de faire une recherche Web littérale à l'ancienne pour toi.

Siri

À quoi s'attendre

L’intérêt de Google pour la recherche sémantique est probablement double. Premièrement, il souhaite probablement utiliser la technologie comme un autre argument de vantardise qui le place en avance sur ses concurrents, principalement Microsoft Bing. Bing a depuis longtemps un partenariat avec Wolfram Alpha conçu pour aider le moteur de recherche à fournir des réponses directes lorsque cela est possible. Cependant, jusqu’à présent, ni Bing ni Google n’ont fait de percée majeure auprès des consommateurs grâce aux résultats de recherche directs. Après tout, la plupart des utilisateurs de recherche quotidiens ne savent probablement pas que les fonctionnalités (limitées) existent déjà. Même pour les utilisateurs qui en sont conscients, même Google semble penser que la technologie n’est applicable qu’à 10 à 20 % des recherches. Cela représente beaucoup de recherches, mais cela signifie que la majorité (80 à 90 %) des recherches ne l’utiliseront pas.

Cependant, à mesure que les consommateurs abandonnent rapidement les ordinateurs portables, les ordinateurs de bureau et les plates-formes informatiques traditionnelles, la capacité de fournir des réponses courtes et faciles à comprendre à des requêtes de recherche complexes pourrait devenir une réalité. très important dans le monde mobile. Pour les utilisateurs qui conduisent ou qui ne souhaitent pas jouer avec les claviers ou les claviers à l'écran, la possibilité de répondre à des requêtes vocales telles que « Est-ce que Golden Gate Park? plus grand que Central Park? ou "Par quel chemin vers l'appartement de Malcolm ?" avec des réponses simples comme « Oui » et « Prendre la prochaine à gauche » pourraient être des différenciateurs inestimables pour les mobiles plates-formes.

C’est certainement là que des entreprises comme Apple et Google cherchent à exploiter cette technologie.

* Tombaugh a identifié Pluton pour la première fois comme un objet en mouvement le 18 février 1930, mais Pluton avait été involontairement repéré à plusieurs reprises auparavant. Le plus ancien connu actuellement remonte à 1909. Voir? La connaissance est glissante.

Photo via: Annette Shaff / Shutterstock.com

Recommandations des rédacteurs

  • Tout Internet appartient désormais à l’IA de Google
  • Vous n’êtes pas obligé d’utiliser Bing – la recherche Google intègre désormais également l’IA
  • Oups – La démo de Google Bard AI est réfutée par le premier résultat de recherche
  • Voici comment la recherche Google prévoit de lutter contre le clickbait
  • Comment supprimer des informations personnelles de la recherche Google