Inside Knowledge Graph: la recherche sémantique approfondie de Google

Graphique des connaissances Google

Google commence à déployer sa nouvelle technologie Knowledge Graph auprès de ses utilisateurs anglophones aux États-Unis. Bien que le nouveau service apparaisse comme un complément aux résultats de recherche Web normaux de Google, plutôt qu'un service distinct à part entière — il représente une manière fondamentalement différente d'aborder recherche. Au lieu de renvoyer des résultats de recherche classés basés sur des termes de recherche littéraux (ou certains termes de recherche, ou versions éventuellement corrigées de certains termes de recherche), Knowledge Graph tente essentiellement d'associer la recherche requêtes avec truc il connaît: des lieux, des personnes, des livres, des films, des événements – vous l'appelez. Knowledge Graph est un effort pour atteindre recherche sémantique, en essayant de renvoyer des résultats basés sur la signification de ce que les utilisateurs recherchent, au lieu de simplement des correspondances littérales.

Le Knowledge Graph peut-il changer notre façon de rechercher? Et qu’est-ce que cela pourrait signifier pour l’activité fondamentale de Google – et pour les sites qui comptent sur Google pour générer du trafic vers leurs sites ?

Vidéos recommandées

Knowledge Graph sous le capot

Graphique de connaissances Google (Curie)

Bien que Knowledge Graph soit un type d’offre de recherche fondamentalement nouveau de Google, il suit les sentiers battus que Google suit depuis des années avec son service de recherche grand public. Et Google prend soin de le présenter d’une manière qui ne perturbe pas terriblement son marché de recherche dominant.

En rapport

  • Le rival ChatGPT de Google vient de se lancer dans la recherche. Voici comment l'essayer
  • Oups – La démo de Google Bard AI est réfutée par le premier résultat de recherche
  • Google vient de révéler ce que vous avez trouvé le plus fascinant en 2022

Depuis des années, Google est en mesure de répondre à une sélection de requêtes factuelles simples directement à partir de la recherche. barre, et même faire quelques calculs - pratique pour les personnes qui sont plus susceptibles d'avoir un navigateur Web en cours d'exécution qu'un calculatrice. Essayez-le: Google devrait fournir des réponses directes à des éléments tels que «capitale du suriname" ou "racine carrée 3952.”

Avec Knowledge Graph, Google déposera également les requêtes de recherche dans des bases de données complexes contenant des informations interdépendantes sur… eh bien, des choses, faute de meilleures conditions. D'une certaine manière, ces bases de données fonctionnent un peu comme une recherche traditionnelle: elles renvoient des enregistrements contenant des informations importantes sur un élément particulier. Pour une personne, cela peut être quelque chose comme sa date de naissance (et peut-être sa date de décès), sa nationalité, les titres ou fonctions qu'elle a pu exercer, son nom légal complet, et plus encore.

Pour un bâtiment, ces ensembles de données peuvent inclure des éléments tels que son emplacement, la date de sa construction, sa taille globale, son type (par exemple, monument, espace commercial, espace commercial, résidence, euh… station spatiale ?). Cependant, en plus de quelques faits bruts et de quelques mots-clés, ces entrées de base de données rassemblent également des liens directs vers en rapport objets dans la base de données (qui à leur tour sont liés à d’autres objets associés, et ainsi de suite). Selon toute vraisemblance, la nature de ces liens est également définie. Par exemple, une entrée autour d’une personne peut contenir des liens vers les parents, le(s) conjoint(s) et les enfants de cette personne, et d’autres relations significatives et être capable de faire la distinction entre les membres de la famille et d’autres types de relations. La base de données ne ferait pas son travail si un ensemble de données sur George H. W. Bush (le 41e président des États-Unis) n’a pas établi de lien avec l’ensemble de données sur George W. Bush (le 43e président) – et tous deux seraient liés à Condoleezza Rice, mais de manières différentes. Un ensemble de données sur la Grande Pyramide devrait inclure des liens vers Khéops et Khéops, ainsi que vers le Sphinx, mais également vers le mausolée d'Halicarnasse. (Peux-tu deviner pourquoi?)

Ces ensembles de données constituent le cœur de la recherche sémantique – et ils ne sont pas bon marché. Tout d’abord, elles sont énormes: la somme des connaissances humaines n’est peut-être qu’un tout petit point face à toutes les réalités. informations dans l'univers, mais le simple fait de supprimer le service peut facilement produire des centaines de millions (ou des milliards) d’ensembles de données. (En comparaison, la version anglaise de Wikipédia ne compte qu’environ 4 millions d’articles.) Ces ensembles de données ne sont pas faciles à obtenir: ils doivent être minutieusement compilés à partir de sources fiables. De plus, ils doivent être organisés et conçus de manière à ce que les informations puissent être consultées et manipulées de manière utile (et en temps réel, pour les besoins de Google). Et les ensembles de données doivent être capables de faire face à la nature maléfique de la « connaissance ». Après tout, il y a quelques années à peine, Pluton était une planète et le Vioxx était un traitement contre l'arthrose approuvé par la FDA.

Google construit apparemment ses bases de données en utilisant des technologies et des méthodes acquises avec Metaweb en 2010 – bien que Metaweb Base gratuite la base de données sémantique reste accessible à tous. Google utilise Freebase pour les données, ainsi que les informations extraites de Wikipédia et du Recueil d'informations sur le monde de la CIA. Google réclamations sa base de données Knowledge Graph contient déjà des entrées pour quelque 500 millions d'objets (veuillez noter que les objets ne peuvent pas être directement comparés à articles Wikipédia) et quelque 3,5 milliards de « faits ». Nous mettons « fait » entre guillemets parce que c'était autrefois un « fait » que la Terre était plate et que les humains je ne pouvais pas voler. La connaissance est glissante.

Graphique des connaissances à l'écran

La mise en œuvre initiale du Knowledge Graph par Google est conçue pour augmenter les listes de résultats de recherche existantes de l’entreprise, plutôt que de les remplacer. Tout comme Google affiche parfois des aperçus de pages dans un panneau situé à droite des résultats de recherche dans une fenêtre de navigateur Web standard, les résultats du Knowledge Graph apparaîtront dans des panneaux à côté des résultats de recherche. Tous les termes de recherche ne produiront pas de panneaux Knowledge Graph: les requêtes devront correspondre à des objets bien définis dans le Knowledge Graph. (Ne vous inquiétez pas si vous ne voyez pas encore les résultats du Knowledge Graph; Google est toujours en train de déployer cette fonctionnalité et, pour le moment, elle est limitée aux utilisateurs anglophones aux États-Unis.)

Les panneaux Knowledge Graph cherchent à afficher un résumé des informations clés et les plus recherchées sur une requête sans obliger les utilisateurs à lire les résumés de deux lignes d'une page Web ou à cliquer sur une autre site. Pour une personne, ces faits clés peuvent inclure les dates de naissance et de décès, les personnes importantes qui leur sont associées et des faits saillants rapides sur les titres, les réalisations ou ce qui rend cette personne importante. Pour les autres entités, Google tentera de faire apparaître des informations clés, des statistiques et des associations. Le panneau Knowledge Graph gérera également la désambiguïsation. Si plusieurs entités Knowledge Graph correspondent à une requête de recherche, Google donne accès à toutes.

Peut-être plus important encore, une fois que les utilisateurs interagissent avec une entité Knowledge Graph, ils peuvent, dans certaines limites, surfer sur les liens des relations avec ces entités. Par exemple, l'affichage d'une entrée du Knowledge Graph sur Dashiell Hammett devrait permettre aux utilisateurs d'accéder immédiatement à un résumé du Knowledge Graph de L'homme mince et Le faucon maltais – et peut-être à des résumés sur Lillian Helman et les chasses aux sorcières anticommunistes de l’après-Seconde Guerre mondiale.

Knowledge Graph ne sera pas limité aux recherches basées sur un navigateur: Google déploie actuellement les résultats de recherche Knowledge Graph à la plupart des appareils fonctionnant sous Android 2.2 ou supérieur (encore une fois, aux États-Unis uniquement en anglais) dans la zone de recherche rapide et dans le navigateur chercheurs. Les résultats de recherche Knowledge Graph seront également introduits dans les prochaines versions de l’application de recherche de Google pour les appareils iOS. Les utilisateurs peuvent parcourir les informations dans Knowledge Graph en appuyant ou en faisant glisser leur doigt d'avant en arrière dans le contenu.

Google Knowledge Graph (mobile)

Il est important de noter que ce ne sont que les premiers endroits où Knowledge Graph apparaît dans les services de Google. En coulisses, vous pouvez vous attendre à ce que les résultats de recherche Knowledge Graph commencent à alimenter une grande variété de services Google, en particulier à mesure que son corpus d’ensembles de données et de « faits » s’agrandit. Les recherches Knowledge Graph ne seront probablement jamais remplacer La recherche traditionnelle basée sur des mots clés de Google – la recherche sémantique et la recherche littérale sont en quelque sorte deux outils différents efficaces pour deux tâches distinctes – mais, en théorie, il ne serait pas surprenant qu’un jour Knowledge Graph contribue à hauteur d’un quart des interactions de Google avec la recherche. utilisateurs.

Crowdsourcing… ou cours aux couleurs de Google ?

Alors, comment Knowledge Graph sélectionne-t-il les informations pour ses résumés? Jusqu’à présent, Google n’a pas été très explicite sur la méthodologie derrière la présentation du Knowledge Graph. Dans mon échantillon (limité), une bonne partie des données priorisées par Google pour ses résumés semblent assez cohérentes: dates, relations, et un seul champ de « réalisation significative » pour les personnes (qui pourrait être étiqueté quelque chose comme « Découvertes » ou « Occupation » ou "Titre"). Les lieux obtiennent des lieux et des dates, ainsi qu'une sélection d'autres champs qui peuvent correspondre exactement à ce que quelqu'un souhaite ou complètement inappropriés. Par exemple, si vous regardez l’Empire State Building, fournir l’adresse postale semble approprié… mais ce n’est pas aussi approprié pour, disons, Stonehenge. Des bizarreries similaires peuvent se produire avec les numéros de téléphone: combien de personnes ont besoin d’un accès instantané à un numéro de téléphone pour le Taj Mahal ?

Graphique de connaissances Google (Taj Mahal)

Google affirme qu'il donne la priorité aux informations qu'il présente dans les résumés du Knowledge Graph en utilisant la « sagesse humaine ». Et par là, Google ne le fait pas signifie en réalité des choses que les humains leur disent ou que les experts en la matière ou les conservateurs de bases de données collectent - cela signifie faire des hypothèses indirectes sur les intentions des utilisateurs en enregistrant les comportements de recherche et en gardant un œil sur ce sur quoi ils cliquent, ne cliquent pas et recherchent après avoir effectué une recherche. En un mot, Google utilise le crowdsourcing pour tenter de déterminer quels « faits » sont les meilleurs à présenter dans un résumé Knowledge Graph.

Par exemple, Google affirme que les informations récapitulatives du Knowledge Graph qu'il présente pour Tom Cruise répondent à 37 % des requêtes de suivi des utilisateurs de recherche Google sur l'acteur lorsqu'ils le recherchent. Ce chiffre de 37 pour cent semble rassurant, scientifique et précis, mais il n’existe absolument aucun moyen de l’évaluer. si l'évaluation par Google du comportement global des utilisateurs de recherche a quelque chose à voir avec ce qu'un utilisateur particulier - comme toi - veut savoir. Puisque Google semble si fier de ce chiffre de 37 pour cent, retournons les choses à l’envers: Google dit 63 pour cent du temps, il ne peut présenter aucune information sur un sujet que ses utilisateurs de recherche trouvent pertinent.

La position de Google est facile à comprendre: dans la mesure du possible, il souhaite présenter immédiatement les informations recherchées par ses utilisateurs. La seule façon pour Google de réellement évaluer cela est d’examiner la manière dont les gens utilisent son moteur de recherche et d’essayer de faire des suppositions.

Le crowdsourcing comporte ses dangers. Tout comme Google marche en eaux troubles lorsqu'il choisit de prioriser les résultats de recherche de Google+ Dans Search Plus Your World, il existe des risques à s'appuyer sur le crowdsourcing pour donner la priorité à la présentation des informations et des « faits ». Juste parce que l’audience de recherche de Google peut ne pas connaître (ou ne pas s’intéresser particulièrement) à certaines informations, cela ne signifie pas qu’elles ne sont pas importantes ou pertinent. Il existe de nombreux cas où la perception des faits par « la foule » est erronée. La plupart des gens pensent que la schizophrénie signifie avoir plusieurs personnalités, boire du lait ou manger de la glace. augmente la production de mucus, et Marie-Antoinette a dit: « Laissez-les manger du gâteau ». Pourtant, aucune de ces choses n'est vrai.

S'appuyer sur le crowdsourcing pour évaluer l'importance des informations crée également un risque d'abus. Supposons qu’un gouvernement veuille semer de la désinformation sur les dissidents, qu’une campagne politique veuille diffamer un opposant ou que des pirates informatiques veuillent jouer avec les résultats de recherche juste pour rire? De la même manière, les résultats de recherche Google ont été "Googlebombé», le crowdsourcing pourrait être utilisé pour manipuler Knowledge Graph. Les gens sensés ne croiront pas tout ce qu’ils lisent; de même, les « faits » présentés par les moteurs de recherche sémantiques ne seront pas fiables – et dans certains cas, le crowdsourcing les rendra encore moins fiables.

Rendre Google plus collant

D’un point de vue pratique, le Knowledge Graph de Google aura un impact immédiat: il rendra les résultats de recherche de Google plus fluides. Chaque fois que Knowledge Graph peut fournir une réponse directe à la question d'un utilisateur de recherche – ou lui permettre d'y accéder rapidement via des sujets connexes – les utilisateurs resteront sur les services Google. Cela signifie que Google collecte davantage de données sur les recherches et les comportements des utilisateurs (qu'ils soient connectés ou non à un compte Google). Cela permet à Google d’affiner davantage sa plate-forme de publicité ciblée.

Cela signifie également que des services comme Wikipédia, qui répondent souvent aux mêmes types de connaissances spécifiques, les requêtes ciblées par Knowledge Graph verront une diminution de la quantité de trafic Web qu'elles reçoivent Google. Dans le cas de Wikipédia, cela correspond directement à moins d’opportunités de solliciter le soutien de la communauté; pour d’autres services, cela se traduira directement par une diminution du nombre d’impressions publicitaires et (par conséquent) par une baisse des revenus. Pour les personnes qui proposent des sites et des services basés sur la fourniture de faits et d'informations discrets – et cela inclut tout, de Wikipédia à IMDb en passant par les détaillants en ligne. aux annuaires téléphoniques et aux annuaires d'entreprises, à (en théorie) des services participatifs comme Yelp et même des archives publiques… Knowledge Graph pourrait lentement éroder leur entreprises.

Recommandations des rédacteurs

  • Comment utiliser Google SGE – essayez par vous-même l'expérience de recherche générative
  • Vous n’êtes pas obligé d’utiliser Bing – la recherche Google intègre désormais également l’IA
  • Comment ChatGPT pourrait aider Microsoft à détrôner la recherche Google
  • Google Chrome bénéficie de l'une des meilleures fonctionnalités de Microsoft Edge
  • Le nouvel outil de confidentialité de Google vous permet de savoir si vos informations personnelles ont été divulguées