Inside Knowledge Graph: Google の詳細なセマンティック検索

Google ナレッジ グラフ

Google は、新しい Knowledge Graph テクノロジーを米国の英語圏ユーザーに展開し始めています。 新しいサービスは Google の通常の Web 検索結果の付属物として表示されますが、むしろ それ自体が独立したサービスとは異なります。これは根本的に異なるアプローチ方法を表します。 検索。 リテラルの検索語 (または一部の検索語、または 一部の検索用語は修正されている可能性があります)、ナレッジ グラフは基本的に検索を関連付けようとします。 とのクエリ もの 場所、人、本、映画、出来事など、何でも知っています。 ナレッジグラフは達成するための取り組みです セマンティック検索、文字通りの一致だけではなく、ユーザーが検索した内容の意味に基づいて結果を返そうとします。

ナレッジ グラフは検索方法を変えることができますか? そして、それは Google の基本的なビジネス、そしてサイトにトラフィックをもたらすために Google に依存しているサイトにとって何を意味するのでしょうか?

おすすめ動画

内部のナレッジグラフ

Google ナレッジ グラフ (キュリー)

Knowledge Graph は Google が提供する根本的に新しい種類の検索サービスですが、Google が主流の検索サービスで長年追求してきたよく踏まれた道をたどっています。 そして Google は、市場を支配する検索に大きな混乱を与えない方法でこの機能を導入するよう注意しています。

関連している

  • Google のライバルである ChatGPT が検索分野に登場したばかりです。 試してみる方法は次のとおりです
  • おっと — Google Bard AI デモは最初の検索結果によって反証される
  • Google は、2022 年にあなたが最も魅力的だと感じたことを発表しました

長年にわたり、Google は検索から直接、単純な事実に関する質問の選択に答えることができました。 バーを確認したり、計算をしたりすることもできます。Web ブラウザを実行している可能性が高い人にとっては便利です。 電卓。 試してみてください: Google は次のようなことに対して直接回答を提供する必要があります。スリナムの首都" または "平方根 3952.”

Google は Knowledge Graph を使用して、検索クエリを相互に関連する情報の複雑なデータベースにドロップする予定です…そうですね。

もの、 もっと良い条件がなかったからです。 ある意味、これらのデータベースは従来の検索とよく似た機能を持ち、特定のものに関する重要な情報を含むレコードを返します。 個人の場合、それは生年月日 (場合によっては死亡日)、国籍、これまでに就いていた役職や役職、正式な氏名などです。

建物の場合、これらのデータセットには、その位置、建設時期、全体のサイズ、タイプ (記念碑、小売スペース、商業スペース、住居、ええと…宇宙ステーション?) などが含まれる場合があります。 ただし、これらのデータベース エントリは、いくつかの裸の事実といくつかのキーワードに相当するものに加えて、次への直接リンクも収集します。 関連している データベース内のオブジェクト (他の関連オブジェクトにリンクするなど)。 おそらく、それらのリンクの性質も定義されています。 たとえば、ある人物に関するエントリには、その人物の両親、配偶者、子供へのリンクが含まれる場合があります。 他の重要な関係を認識し、家族のメンバーと他のタイプの関係を区別できるようになります。 ジョージ H. W. ブッシュ (第 41 代アメリカ合衆国大統領) はジョージ W ブッシュに関するデータセットにリンクしていませんでした。 ブッシュ (第 43 代大統領) — そして両方ともコンドリーザ・ライスにつながることになりますが、方法は異なります。 大ピラミッドのデータセットには、クフ王とクフ王、スフィンクスへのリンクだけでなく、ハリカルナッソスの霊廟へのリンクも含める必要があります。 (推測できますか なぜ?)

これらのデータセットはセマンティック検索の中核を構成しており、その価格は決して安くはありません。 まず第一に、それらは巨大です。人類の知識の総和は、すべてのものの前ではほんの小さな点かもしれません。 宇宙に存在する情報ですが、サービスをスクレイピングするだけで簡単に数億(または数十億)の情報を生み出すことができます。 データセットの。 (それに比べて、ウィキペディアの英語版には 400 万件ほどの記事しかありません。) これらのデータセットは入手するのが簡単ではありません。信頼できるソースから苦労して編集する必要があります。 さらに、有益な方法で(そして Google の目的のためにリアルタイムで)情報にアクセスして操作できるように、情報を整理し、設計する必要があります。 そして データセットは、「知識」の有害な性質に対処できなければなりません。 結局のところ、ほんの数年前まで、冥王星は惑星であり、Vioxx は FDA によって承認された変形性関節症の治療薬でした。

Google は、2010 年に Metaweb から取得した技術と手法を使用してデータベースを構築しているようですが、Metaweb の フリーベース セマンティック データベースは引き続き誰でも利用できます。 Google は、Wikipedia や CIA ワールド ファクトブック. グーグル 請求 そのナレッジ グラフ データベースには、すでに約 5 億個のオブジェクトのエントリがあります (これらのオブジェクトは直接比較できないことに注意してください) ウィキペディアの記事)と約 35 億の「事実」。 「事実」を引用符で囲んだのは、かつては地球が平らで人類が存在したことは「事実」だったからです。 飛べなかった。 知識というのは滑りやすいものです。

画面上のナレッジグラフ

Google の Knowledge Graph の初期実装は、同社の既存の検索結果リストを置き換えるのではなく、それを拡張するように設計されています。 Google では、標準的な Web ブラウザ ウィンドウで検索結果の右側のパネルにページのプレビューを表示することがありますが、ナレッジ グラフの結果は検索結果の隣のパネルに表示されます。 すべての検索語がナレッジ グラフ パネルを生成するわけではありません。クエリは、ナレッジ グラフ内で明確に定義されたオブジェクトと一致する必要があります。 (ナレッジ グラフの結果がまだ表示されなくても心配する必要はありません。 Google はまだこの機能を展開中であり、現時点では米国内の英語を話すユーザーに限定されています。)

ナレッジ グラフ パネルは、クエリに関する重要な情報と最も検索されている情報の概要を表示します。 ユーザーが Web ページの 2 行の概要を読んだり、クリックして別のページに移動したりする必要はありません。 サイト。 個人の場合、これらの重要な事実には、生年月日、死亡日、それに関連する重要な人物、肩書き、業績、その他その人を重要にする理由の簡単なハイライトが含まれる場合があります。 他のエンティティについては、Google は重要な情報、統計、および関連性を明らかにしようとします。 ナレッジ グラフ パネルも曖昧さの解消に対応します。 複数のナレッジ グラフ エンティティが検索クエリに一致する場合、Google はそれらすべてへのアクセスを提供します。

おそらくもっと重要なことは、ユーザーがナレッジ グラフ エンティティと対話すると、一定の制限内で、それらのエンティティへの関係のリンクをサーフィンできることです。 たとえば、Dashell Hammett に関するナレッジ グラフのエントリを表示すると、ユーザーはすぐにナレッジ グラフの概要にジャンプできるようにする必要があります。 痩せた男 そして マルタのハヤブサ — そしておそらく、リリアン・ヘルマンと第二次世界大戦後の反共産主義者の魔女狩りについての要約にもなるでしょう。

ナレッジ グラフはブラウザベースの検索に限定されません: Google は現在、ナレッジ グラフの検索結果を展開中です Android 2.2 以降を実行しているほとんどのデバイス (ここでも、英語は米国のみ) のクイック検索ボックスとブラウザベースの 捜索者たち。 ナレッジ グラフの検索結果は、iOS デバイス用の Google 検索アプリの次期バージョンにも導入される予定です。 ユーザーは、コンテンツをタップまたは前後にスワイプすることで、ナレッジ グラフ内の情報内を移動できます。

Google ナレッジ グラフ (モバイル)

これらは、Google のサービスでナレッジ グラフが初めて登場した場所にすぎないことに注意することが重要です。 特にデータセットと「事実」のコーパスが増大するにつれて、舞台裏で Knowledge Graph の検索結果がさまざまな Google サービスに情報を提供し始めることが期待できます。 ナレッジグラフ検索はおそらく決して行われないでしょう 交換する Google の従来のキーワードベースの検索 — セマンティック検索とリテラル検索は、2 つの異なるタスクに適した 2 つの異なるツールのようなもの — しかし、理論的には、ナレッジ グラフがいつか Google の検索とのやり取りの 4 分の 1 に貢献したとしても驚くべきことではありません。 ユーザー。

クラウドソーシング…それとも Google カラーのクラス?

では、ナレッジグラフはどのようにして要約用の情報を選択するのでしょうか? これまでのところ、Google は Knowledge Graph のプレゼンテーションの背後にある方法論についてあまり明確にしていません。 私の(限られた)サンプリングでは、Google が要約のために優先しているデータのかなりの部分は、かなり一貫しているように見えます。日付、関係、 そして人々のための単一の「重要な業績」フィールド(「発見」や「職業」などのラベルを付けることができます) "タイトル")。 場所には、場所と日付、および誰かが望んでいることとまったく同じであるか、まったく不適切である可能性があるその他の選択されたフィールドが含まれます。 たとえば、エンパイア ステート ビルディングを見ている場合、番地を提供するのは適切であるように思えますが、たとえばストーンヘンジの場合はそれほど適切ではありません。 同様の奇妙なことが電話番号でも起こる可能性があります。タージ マハルの電話番号に即座にアクセスする必要がある人は何人いるでしょうか?

Google ナレッジ グラフ (タージ マハル)

Googleは、ナレッジグラフの概要で提示する情報を「人間の知恵」を使って優先していると述べている。 そしてそれによって、Googleは 実際には、人間が語ったもの、またはその分野の専門家やデータベースのキュレーターが収集したものを意味します。つまり、間接的な仮定を行うことを意味します。 検索行動をログに記録し、クリックしたもの、クリックしなかったもの、検索後に検索したものを監視することで、ユーザーの意図を把握します。 検索。 一言で言えば、Google はクラウドソーシングを利用して、どの「事実」がナレッジ グラフの概要に表示するのに最適かを判断しようとしています。

たとえば、Google によれば、トム クルーズについて表示するナレッジ グラフの概要情報は、Google 検索ユーザーがトム クルーズを検索する際の、その俳優に関するフォローアップ クエリの 37 パーセントに答えます。 37% という数字は科学的で正確であるように安心感を与えますが、評価する方法はまったくありません。 検索ユーザーの全体的な行動に対する Google の評価が、特定のユーザーの行動と何らかの関係があるかどうか — のように あなた - 知りたい。 Google は 37% という数字をとても誇りに思っているようですが、それをひっくり返してみましょう。Google は 63 パーセントと言っています ほとんどの場合、検索ユーザーが見つけたトピックに関する情報はまったく表示されません。 関連する。

Google の立場は理解するのが簡単です。Google は、可能な限り、ユーザーが求めている情報をすぐに提供したいと考えています。 Google がそれを実際に評価できる唯一の方法は、人々が Google の検索エンジンをどのように使用しているかを観察し、推測を試みることです。

クラウドソーシングには危険性があります。 Google が選択したときに濁流に足を踏み入れているのと同じように、 Google+ からの検索結果を優先する Search Plus Your World では、情報と「事実」の提示を優先するためにクラウドソーシングに依存することには危険があります。 ただ Google の検索ユーザーは特定の情報について知らない(または特に気にしない)可能性があるからといって、それが重要ではない、または重要ではないという意味ではありません。 関連する。 「群衆」の事実認識が間違っているケースはたくさんあります。 ほとんどの人は、統合失調症とは多重人格であり、牛乳を飲んだり、アイスクリームを食べたりすることを意味すると考えています。 粘液の生成が増加し、マリー・アントワネットは「ケーキを食べさせなさい」と言いました。 しかし、これらのことはどれもそうではありません 真実。

情報の重要性を評価するためにクラウドソーシングに依存すると、悪用の可能性も生じます。 政府が反体制派に関する誤った情報を広めたかった、政治運動が反対派を中傷したかった、またはハッカーが笑いのためだけに検索結果をいじりたかったとしますか? Google の検索結果も同様に、「Google爆撃を受けた」、クラウドソーシングを使用してナレッジグラフを操作できる可能性があります。 賢明な人は、読んだものをすべて信じるわけではありません。 同様に、セマンティック検索エンジンによって提示される「事実」は信頼性が低く、場合によってはクラウドソーシングによって信頼性がさらに低くなります。

Google をより粘着的にする

実際的な面では、Google のナレッジ グラフはすぐに影響を及ぼします。それは、Google の検索結果の粘着性を高めることです。 ナレッジ グラフが検索ユーザーの質問に直接回答できる場合、または関連トピックからすぐに質問に移動できる場合、ユーザーは引き続き Google サービスを利用することになります。 これは、Google がユーザーの検索と行動に関するより多くのデータを収集することを意味します (ユーザーが Google アカウントにサインインしているかどうかに関係ありません)。 これにより、Google はターゲットを絞った広告プラットフォームをさらに洗練できるようになります。

また、同じ種類の知識に特化した質問によく答えるウィキペディアのようなサービスも、 Knowledge Graph のターゲットとなるクエリでは、クエリが受け取る Web トラフィックの量が減少します。 グーグル。 ウィキペディアの場合、それはコミュニティのサポートを求める機会の減少に直接対応します。 他のサービスの場合、これは広告インプレッション数の減少、つまり収益の減少に直接つながります。 個別の事実や情報の提供に基づいてサイトやサービスを提供する人々向け — これには、Wikipedia から IMDb 、オンライン小売業者に至るまで、あらゆるものが含まれます 電話帳やビジネス ディレクトリ、Yelp などの (おそらく) クラウドソーシング サービス、さらには公的記録まで…ナレッジ グラフは、その情報をゆっくりと侵食する可能性があります。 ビジネス。

編集者のおすすめ

  • Google SGE の使用方法 — 検索生成エクスペリエンスを自分で試してください
  • Bing を使用する必要はありません – Google 検索にも AI が搭載されました
  • ChatGPT は Microsoft が Google 検索の座を奪うのにどのように役立つか
  • Google Chrome は Microsoft Edge の最高の機能の 1 つを取得します
  • Google の新しいプライバシー ツールにより、個人情報が漏洩したかどうかを知ることができます