ウォール・ストリート・ジャーナルのアミール・エフラティ氏は記事で眉をひそめた(購読が必要です)Googleは、いわゆる「セマンティック検索」技術をさらに導入することで、インターネット検索においてライバルに先んじようと取り組んでいると述べた。 そのアイデアは、Google の検索ボックスを、ユーザーがキーワードや具体的に作成されたクエリを入力するための場所だけでなく、実際の機能を備えたボックスにするというものです。 理解 ユーザーが入力する用語、名前、動詞、参照の多くを解析し、その知識をユーザーの検索に応用できる可能性があります。 理論的には、セマンティック検索は検索者の意図を反映した結果を返せるはずです。 場合によっては、ユーザーを別のサイトに誘導することなく、すぐに回答を提供できる Google の能力が向上します。 サイト。
しかし、ちょっと待ってください。これは何か新しいことですか? Googleはしないのですか すでに いくつかの答えをすぐに提示しますか? そして、セマンティック検索は、Google がインターネット検索ビジネスで主導権を維持するのにどのように役立つ可能性があるのでしょうか?
おすすめ動画
セマンティック検索とは何ですか?
一言で言えば、セマンティックには、IBM スーパーコンピューティング アプリケーションである Watson と多くの共通点があります。 簡単に倒された人間 で 危険! Microsoft Word の「検索」ダイアログよりも簡単です。
大まかに言えば、コンピュータ検索の世界は次の 2 つのタイプに分類されます。
リテラル検索 (時々呼ばれます ナビゲーション検索) は、入力された用語の一部またはすべてと完全に一致するものを検索し、ファイル、Web ページ、製品、その他の個別の情報単位など、一致する項目を返します。 リテラル検索は、ステムマッチング、共役、連想などを使用して拡張でき、便利な方法で検索を拡張または制限できます。 「fly」を検索すると「flight」もヒットする可能性があります。 リテラル検索は、今日私たちが最もよく知っているものです。その理由の 1 つは、それがコンピューターにとって最も簡単であるためです。 実行する。
セマンティック検索 リテラル検索とは 2 つの点で異なります。 まず、セマンティック検索は次のことを試みます。
理解する クエリの用語と言語の分析を通じて、ユーザーがクエリで何を尋ねているかをコンテキストに配置することで把握します。 この分析は、ユーザーに関する知識を含む可能性のある、事前に厳密にコンパイルされた知識のプールに対して実行されます。 次に、セマンティック検索は、ファイル、Web ページ、製品、その他のアイテムのセットを返すのではなく、 直接 質問に対する答え。 セマンティック検索エンジンに「冥王星はいつ発見されましたか?」と尋ねると、 「冥王星は 1930 年 2 月 18 日にクライド・トンボーによって発見されました」と答えるかもしれません。*ここで、文字通りの検索エンジンは、「発見」と「冥王星」という単語を含む Web ページへのリンクを返す可能性が高くなります。リテラル検索とセマンティック検索はさまざまなタスクに適していることがわかりました。 リテラル検索は、ユーザーが特定の内容を探している場合に最適です。 もの、 ファイル、Web ページ、ドキュメント、製品、アルバム、その他の個別のアイテムであっても。 一方、セマンティック検索は、ユーザーが特定の情報を探している場合に便利であることがわかりました。 情報 — 日付、番号、時間、場所、名前など。
ワード プロセッサから Web 検索エンジンに至るまで、あらゆる分野でリテラル検索テクノロジが普及したこともあり、私たちはリテラル検索に最も慣れています。 私たちのほとんどは、リテラル検索を操作して、最初の試行で目的の結果に近づく方法をすでに知っています。 しかし、Efrati 氏の WSJ 記事によると、Google はセマンティック検索テクノロジーが Web 検索の 10 ~ 20% に対して直接的な答えを提供できると考えています。 Comscore によると、Google 117 億件の検索を処理しました 2012 年 2 月に米国だけで行われました。 セマンティック検索機能があれば、ユーザーを他の Web ページやサイトに誘導することなく、これらの検索のうち 23 億件以上に直接答えることができたはずです。
Googleはすでにこれを行っているのではないでしょうか?
Google ウェブ検索を少しでも使ったことがある人なら、おそらく「でも待てよ、Google はすでにこんなことをやってるんだ!」と思うだろう。 タイプ "東京の現在の時刻" または "エベレスト山の高さはどれくらいですか」とすると、Google は検索結果の上部に正確な答えを推測して表示します。 Google は回答のソースも引用しており、それらのソースの一部は回答の下にある古典的な「10 個の青いリンク」内に表示されます。 (Google によると、エベレストの高さは 8,848 メートルです。)
公平を期すために言うと、これは Google が検索バーに組み込んだ数多くの便利な機能の 1 つです。(高度な) 計算を実行し、実行します。 単位と通貨の換算、フライト情報や地元の映画の上映時間などの情報の取得 - 複雑な文字列を入力する必要はありません。 クエリ。 一部の公開データ ソースを利用することもできます。 たとえば、「」と入力すると、メキシコの人口」を検索ボックスに入力すると、世界銀行からのデータが表示されます。 今日の回答数は1億1342万3047人。
ただし、一部の種類の質問に対して直接回答を提供するという Google の取り組みは、すぐに失敗してしまいます。 ユーザーが何を理解しようとするセマンティック検索としてではなく、Google のリテラル検索エンジンの特殊なケースとして実装されています。 望む。 タイプ "エベレストの高さはどれくらいですか」(スペルに注意してください)と検索ボックスに入力しても、Google は答えを提供しようともしません。Google 検索は、「mt」が「マウント」を意味することを知りません。 同様に、Google があなたの現在地がメキシコにないと判断した場合(また、Google があなたの現在地を把握していない場合は、IP アドレスから推測します) そして、 いいえ、オプトアウトできません) 探している "人口メキシコシティ」と実行すると、予期しない結果が返される可能性があります。 確かメキシコシティには 10,852 人以上の人々が住んでいますよね?
セマンティック検索の違い
セマンティック検索は、2 つの方法でこの種の間違いを排除しようとします。 まず、より正確に理解しようとします。 意図 特定のクエリの背後にあるもの。 次に、クエリの要素を事前にコンパイルされた深い知識のプールと照合して、意味のある答えを導き出せるかどうかを確認します。
Google などの文字通りの検索エンジンにクエリを送信しても、すぐに検索エンジンにアクセスできるわけではありません。 インターネット上のすべてのサイトを調べて、あなたのサイトに最も適合すると思われるサイトのリストを報告します。 条項。 その代わりに、Google にはソフトウェア プログラムがあり、インターネット上で新しいサイトや新しい Web ページを常に探し回っています。 索引 見つけたすべてのページから。 これは大幅に簡略化しすぎていますが、ユーザーが次のような検索クエリを入力すると、ヤルタ会談Google は、そのインデックスを調べて、「ヤルタ」と「会議」の両方に一致するページ、および両方の用語が互いに近接している (たとえば、8 語または 10 語以内) ページを探します。 次に、Google はそれらのページの URL を収集し、内部の PageRank (基本的にページへのリンクを肯定的な投票としてカウントする、ページの相対的なメリットを表す Google の尺度) によって並べ替え、リストを返します。
このようなプロセスの背後にあるデータ管理とエンジニアリングは、気が遠くなると同時に膨大なものであり、Google それをやり遂げたことは賞賛に値する — 特に Google はこれをほんの数秒で実行できることが多いため、 2番。 Microsoft の Bing でも同様のことが舞台裏で起こっています。
セマンティック検索では、同じクエリに対して異なるアプローチが行われます。 セマンティック検索エンジンは、クエリを既知の Web ページの事前にコンパイルされた (そして常に更新される) インデックスと比較するのではなく、事前にコンパイルされた個別のインデックスとクエリを比較します。 知識セット 利用可能です。 知識セットはデータベースのようなものだと考えてください。本質的には、特定の主題に関するデータ、事実、数字が詰まっています。 さまざまな種類の知識セットがあります。 興味深いものがいくつかあります。 オントロジー (ルール、機能、制限を使用して操作できる形式化された情報を表す) および フォークソノミー、これは通常、共同で定義された知識セットを表します。例としては、ハッシュタグ付けやソーシャル ブックマークなどがあります。
ナレッジ セットは単なる保管箱ではありません。 また、知識ベース内の項目間の関係も表し、情報を知識ベース全体で有意義に使用できるようにします。 複数 知識セット。 さらに、関係は多くの場合、正確な論理的推論ができるような方法で表現されます。 それなし 考えられるすべての派生データを保存する必要があります。 これは少し擬人化していますが、セマンティック検索エンジンは、知っているデータに対して基本的な推論と推論を実行できます。 そのプロセスの一環として、セマンティック検索エンジンは多くの場合、その派生に対する信頼レベルを評価するように設計されています。 自分が何を言っているのか分からないと思われる場合、沈黙したままになる可能性があります。 彼らがかなり確信している場合、彼らは答えを吐き出すでしょう。
したがって、セマンティック検索エンジンに「ヤルタ会談」と入力すると、その知識セットが検索され、おそらくいくつかの基本的な事実や数字が吐き出されるでしょう。 「1945年2月4日から11日まで」 それはスターリン、チャーチル、フランクリン・ルーズベルトが出席したことを示している可能性があり、それは世界大戦末期でも重要な行事であった II. かなり基本的なもの。
文字通りの検索エンジンに尋ねると、「ヤルタ会談は朝鮮戦争中に起こりましたか?おそらく、10 個の青いリンクのリストが表示されるでしょう。 答えがあるかもしれない。
ただし、セマンティック検索エンジンに質問すると、「いいえ」という一言で答えが返ってくるはずです。
それ ここがセマンティック検索の非常に興味深いところです。
これはWolfram Alphaではないでしょうか?
これらの質問が人々が投げかけるようなもののように聞こえる場合は、 ウォルフラムアルファ 検索エンジン、あなたはまさにその通りです。 Wolfram AlphaはWebページのインデックスではなく,知識エンジンになろうとしています。 Wolfram Alphaは何か(Webページなど)を検索するものではなく、答えを求めるものです。 Wolfram Alpha は結果を生み出すために事前にコンパイルされたナレッジベースに依存しており、同社は新しいナレッジベースを定期的に追加および更新しています。 化学元素やショウジョウバエのゲノムに関する情報など、高度に専門化された技術データもあれば、より風変わりなものもあります。 たとえば、Wolfram Alpha は猫の品種についてかなりの知識を持っています。
Wolfram Alpha の知識の範囲内に留まる限り,データの有用な分析を実行できます。 たとえば、Wolfram Alpha では次のことができます。 ライオンとトラの跳躍距離を比較する. (匹敵することが判明しましたが、トラは一般的にライオンよりも優れているようです。)しかし、知りたい場合は、 カンガルーはどこまでジャンプできるか? 申し訳ありませんが、データがありません。
しかし、カンガルーホップに関する失敗したクエリは、Wolfram Alphaがどのように物事を理解しようとしているかを少し示しています。 答えを提供する前に、エンジンは「カンガルー」が「カンガルー」を意味すると仮定していることを示します。 ワラビー」ですが、ユーザーはアンチロピン カンガルー、アカ カンガルー、またはイースタン ハイイロ カンガルーに切り替えることができます。 カンガルー。 同様に、Wolfram Alphaは「カンガルーはどこまでジャンプできるか」を「ジャンプ距離」、つまり動物に関して持つ可能性のある特定のデータポイントのクエリとして解釈しました。 Wolfram Alphaには現在そのデータがないことが判明しましたが、クエリの解釈は非常に重要です。
これはSiriではないですか?
これらのクエリが、人々が iPhone 4S の Siri に投げかけるようなもののように聞こえるかもしれません (ただし、覚えておいてください、 ない 今週デビューする新しいiPad)、まさにその通りです。 ただし、Siri は方程式の半分、つまりユーザーのクエリを理解するだけであることを覚えておくことが重要です。 そうすることで、Siri は、マイクを介したユーザーの音声をリアルタイムで正確に認識するという非常に難しいコンピューティングの問題に取り組みます。 これは簡単なことではありませんが、セマンティック検索エンジンではありません。 Siri は舞台裏で、Wolfram Alpha、Yelp、そして(他のすべてが失敗した場合には)ユーザーが好む Web 検索エンジンにクエリを渡します。 Siri に「ヤルタ会談は朝鮮戦争中に起こりましたか?」と尋ねると、Siri は内容を正確に認識するかもしれません。 あなたはそう尋ねていますが、私にとってはそうでした - しかし、それは、昔ながらの文字通りの Web 検索を実行することを提案するだけです あなた。
何を期待します
Google のセマンティック検索への関心にはおそらく 2 つの側面があります。 まず、同社はこのテクノロジーを競合他社 (主に Microsoft Bing) に先んじるもう 1 つの自慢ポイントとして利用したいと考えているようです。 ビングは長い間、 Wolfram Alphaとの提携 可能な場合に検索エンジンが直接の回答を提供できるように設計されています。 しかし、これまでのところ、Bing も Google も、直接の検索結果によって消費者に大きく浸透してはいません。 結局のところ、日常の検索ユーザーのほとんどは、(限定された)機能がすでに存在していることをおそらく知りません。 ユーザーがそれを認識しているとしても、Google ですらこの技術は検索の 10 ~ 20 パーセントにしか適用できないと考えているようです。 これは検索数としては多いですが、検索の大部分 (80 ~ 90%) ではこの検索が使用されないことを意味します。
しかし、消費者が急速にノートブック、デスクトップ、従来のコンピューティング プラットフォームを放棄するにつれて、複雑な検索クエリに対して短くてわかりやすい回答を提供する機能が失われる可能性があります。 とても モバイルの世界では重要です。 運転中など、キーパッドやスクリーン キーボードをいじりたくないユーザーにとっては、「ゴールデン ゲート パークはどこですか」のような音声質問に応答できる機能が備わっています。 セントラルパークより大きい?」 または「マルコムのアパートへはどの道ですか?」 「はい」や「次の左折してください」などの簡単な答えは、モバイルにとって貴重な差別化要因となる可能性があります。 プラットフォーム。
Apple や Google などの企業がこのテクノロジーを導入しようとしているのはほぼ間違いありません。
* トンボーは 1930 年 2 月 18 日に初めて冥王星を移動天体として特定しましたが、冥王星はそれ以前にも何度か無意識のうちに発見されていました。 現在知られている最も古いものは 1909 年です。 見る? 知識というのは滑りやすいものです。
写真提供: Annette Shaff / Shutterstock.com
編集者のおすすめ
- インターネットはすべて Google の AI のものになりました
- Bing を使用する必要はありません – Google 検索にも AI が搭載されました
- おっと — Google Bard AI デモは最初の検索結果によって反証される
- Google 検索がクリックベイトにどのように対処する予定かは次のとおりです
- Google検索から個人情報を削除する方法