Wall Street Journal의 Amir Efrati는 기사로 눈썹을 치켜올렸습니다.구독이 필요합니다) Google은 소위 "의미론적 검색" 기술을 도입하여 인터넷 검색 분야에서 경쟁사보다 앞서 나가기 위해 노력하고 있다고 말했습니다. Google의 검색창은 사용자가 키워드나 특정 형식의 검색어를 입력하는 곳이 아니라 실제 검색어를 입력하는 상자가 될 것이라는 생각입니다. 이해 사람들이 입력하는 많은 용어, 이름, 동사 및 참조 정보를 파악하고 해당 지식을 사용자 검색에 적용할 수 있습니다. 이론적으로 의미 검색은 검색자의 의도를 반영하는 결과를 반환할 수 있어야 하며, 어떤 경우에는 사용자를 다른 곳으로 안내하지 않고도 즉시 답변을 제공할 수 있는 Google의 능력이 향상됩니다. 대지.
하지만 잠깐만요. 이게 새로운 게 있나요? 구글은 안 돼 이미 답변을 바로 앞에 두시겠습니까? 그리고 의미론적 검색은 Google이 인터넷 검색 사업에서 선두를 유지하는 데 어떻게 잠재적으로 도움이 될 수 있습니까?
추천 동영상
의미 검색이란 무엇입니까?
간단히 말해서, 시맨틱은 IBM 슈퍼컴퓨팅 애플리케이션인 Watson과 훨씬 더 많은 공통점을 가지고 있습니다. 인간을 가까스로 패배시켰어 ~에 위험! Microsoft Word의 찾기 대화 상자보다 더 그렇습니다.
대략적으로 말하면, 컴퓨터 검색의 세계는 두 가지 유형으로 분류됩니다.
리터럴 검색 (때때로 불린다. 탐색 검색)는 입력된 용어 중 일부 또는 전부와 정확히 일치하는 항목을 찾고 파일, 웹 페이지, 제품 또는 기타 개별 정보 단위 등 일치하는 항목을 반환합니다. 유용한 방법으로 검색을 확장하거나 제한하는 어간 일치, 결합, 연관 등을 통해 문자 검색을 강화할 수 있습니다. "fly"를 검색하면 "flight"가 검색될 수도 있습니다. 리터럴 검색은 오늘날 우리에게 가장 친숙한 방식입니다. 부분적으로는 컴퓨터가 검색하는 것이 가장 쉽기 때문입니다. 공연하다.
의미 검색 두 가지 면에서 문자 검색과 다릅니다. 먼저 의미론적 검색을 시도합니다.
이해하다 쿼리 용어 및 언어 분석을 통해 사용자가 쿼리에서 묻는 내용을 컨텍스트에 배치합니다. 이 분석은 잠재적으로 사용자에 대한 지식을 포함하여 긴밀하게 사전 컴파일된 지식 풀에 대해 수행됩니다. 둘째, 의미론적 검색은 일련의 파일, 웹 페이지, 제품 또는 기타 항목을 반환하는 대신 직접 질문에 대한 답변. 의미 검색 엔진에 “명왕성은 언제 발견되었나요?”라고 묻는다면, "명왕성은 1930년 2월 18일 Clyde Tombaugh에 의해 발견되었습니다."라고 대답할 수 있습니다.*,” 문자 그대로의 검색 엔진은 “발견” 및 “명왕성”이라는 단어가 포함된 웹 페이지에 대한 링크를 반환할 가능성이 높습니다.문자 그대로의 검색과 의미 검색이 서로 다른 작업에 적합한 것으로 나타났습니다. 리터럴 검색은 사용자가 특정 항목을 찾을 때 유용합니다. 물건, 파일, 웹 페이지, 문서, 제품, 앨범 또는 기타 개별 항목이든 상관없습니다. 반면에 의미론적 검색은 사용자가 특정 항목을 찾을 때 더 유용한 것으로 나타났습니다. 정보 — 날짜, 숫자, 시간, 장소 또는 이름과 같습니다.
워드 프로세서부터 웹 검색 엔진까지 모든 분야에서 문자 검색 기술이 확산된 덕분에 우리는 문자 검색에 가장 익숙해졌습니다. 우리 대부분은 첫 번째 시도에서 원하는 것에 더 가까워지기 위해 문자 그대로의 검색을 조작하는 방법을 이미 알고 있습니다. 그러나 Efrati의 WSJ 기사에 따르면 Google은 의미 검색 기술이 웹 검색의 10~20%에 대해 직접적인 답변을 제공할 수 있다고 믿고 있습니다. 컴스코어(Comscore)에 따르면 구글은 117억 건의 검색을 처리했습니다. 2012년 2월 미국에서만. 의미 검색 기능을 사용하면 사람들을 다른 웹 페이지나 사이트로 보내는 대신 23억 개 이상의 검색에 직접 응답할 수 있습니다.
구글은 이미 이런 일을 하고 있지 않나요?
Google 웹 검색을 사용해 본 적이 있다면 아마도 "하지만 잠깐, Google은 이미 이런 일을 하고 있지!"라고 생각할 것입니다. 유형 "현재 도쿄 시간" 또는 "에베레스트 산의 높이는 얼마입니까” 그러면 Google은 검색 결과 상단에 정확한 답변에 대해 최선의 추측을 표시합니다. Google은 답변에 대한 출처도 인용하며, 해당 출처 중 일부는 답변 아래의 전형적인 "10개의 파란색 링크"에 표시됩니다. (Google은 에베레스트 산의 높이가 8,848m라고 보고합니다.)
공평하게 말하면 이는 Google이 검색창에 내장한 많은 유용한 기능 중 하나입니다. (정교한) 수학을 수행하고, 단위 및 통화 변환, 항공편 정보, 지역 영화 상영 시간 등의 정보를 확인할 수 있습니다. 복잡한 단어를 입력할 필요가 없습니다. 질문. 또한 일부 공개 데이터 소스를 활용할 수도 있습니다. 예를 들어 “인구 멕시코'를 검색창에 입력하면 세계은행의 데이터가 표시됩니다. 오늘 응답자는 113,423,047명입니다.
그러나 일부 유형의 질문에 대한 직접적인 답변을 제공하려는 Google의 노력은 매우 빠르게 실패합니다. 사용자가 무엇을 원하는지 이해하려는 의미론적 검색이 아닌 Google의 문자 그대로의 검색 엔진에 대한 특수한 경우로 구현되었습니다. 원한다. 유형 "에베레스트 산은 얼마나 높나요?"(철자 주의)를 검색창에 입력해도 Google은 답변을 제공하려고 시도하지 않습니다. Google 검색에서는 "mt"가 "mount"를 의미하는지 알지 못합니다. 마찬가지로, Google에서 귀하의 현재 위치가 멕시코에 있지 않다고 판단한 경우(그리고 Google에 귀하의 위치가 없는 경우 IP 주소로 추측합니다) 그리고, 아니요, 선택 해제할 수 없습니다) "를 검색합니다.인구 멕시코 시티”는 예상치 못한 결과를 반환할 수도 있습니다. 확실히 멕시코 시티에는 10,852명이 넘는 사람들이 살고 있습니다. 그렇죠?
의미 검색의 차이점
의미 검색은 두 가지 방법으로 이러한 종류의 실수를 제거하려고 시도합니다. 첫째, 좀 더 정확하게 이해하려고 노력한다. 의지 특정 쿼리 뒤에 둘째, 사전 컴파일된 심층 지식 풀과 해당 쿼리의 요소를 일치시켜 의미 있는 답을 찾을 수 있는지 확인합니다.
Google과 같은 문자 그대로의 검색 엔진에 쿼리를 보내면 즉시 압축되지 않습니다. 인터넷의 모든 사이트를 살펴보고 귀하의 사이트와 가장 일치한다고 생각되는 사이트 목록을 다시 보고합니다. 자귀. 대신 Google에는 새로운 사이트와 새로운 웹 페이지를 찾기 위해 끊임없이 인터넷을 뒤지는 소프트웨어 프로그램이 있습니다. 색인 그들이 찾은 모든 페이지에서. 이는 지나치게 단순화된 표현이지만 사용자가 '와 같은 검색어를 입력하면얄타 회담,' Google은 'Yalta'와 'conference'가 모두 일치하는 페이지뿐 아니라 두 용어가 서로 근접한(예: 8~10단어 이내) 페이지를 찾기 위해 해당 색인을 확인합니다. 그런 다음 Google은 해당 페이지의 URL을 수집하고 내부 PageRank(기본적으로 해당 페이지에 대한 링크를 긍정적인 투표로 계산하는 페이지의 상대적 장점에 대한 Google의 척도)별로 정렬한 다음 목록을 반환합니다.
그러한 프로세스의 이면에 있는 데이터 관리 및 엔지니어링은 벅차고 엄청난 작업입니다. Google은 이를 해낸 것에 대해 찬사를 받을 만합니다. 특히 Google은 종종 짧은 시간 안에 이 작업을 수행할 수 있기 때문에 더욱 그렇습니다. 두번째. Microsoft의 Bing에서도 비슷한 일이 뒤에서 일어납니다.
의미론적 검색은 동일한 쿼리에 다르게 접근합니다. 의미론적 검색 엔진은 미리 컴파일된(지속적으로 업데이트되는) 웹 페이지 인덱스와 쿼리를 비교하는 대신, 사전 컴파일된 별도의 쿼리와 비교합니다. 지식 세트 사용 가능합니다. 데이터베이스와 같은 지식 세트를 생각해보세요. 본질적으로 지식 세트는 특정 주제에 대한 데이터, 사실, 수치로 가득 차 있습니다. 다양한 종류의 지식 세트가 있습니다. 몇 가지 흥미로운 점은 다음과 같습니다. 온톨로지 (규칙, 기능 및 제한 사항을 사용하여 조작할 수 있는 형식화된 정보를 나타냄) 및 포크소노미, 일반적으로 공동으로 정의된 지식 세트를 나타냅니다. 예를 들면 해시태그 및 소셜 북마크가 있습니다.
지식 세트는 단순한 저장고 그 이상입니다. 또한 지식 기반 항목 간의 관계를 나타내며 정보가 전체 지식 기반에서 의미 있게 사용될 수 있도록 합니다. 다수의 지식 세트. 더욱이, 관계는 정확한 논리적 추론이 이루어질 수 있는 방식으로 표현되는 경우가 많습니다. 없이 가능한 모든 파생 데이터를 저장해야 합니다. 이는 약간 의인화되어 있지만 의미론적 검색 엔진은 자신이 알고 있는 데이터에 대해 기본적인 추론과 추론을 수행할 수 있습니다. 해당 프로세스의 일부로 의미론적 검색 엔진은 파생에 대한 신뢰도 수준을 평가하도록 설계되는 경우가 많습니다. 자신이 무슨 말을 하는지 모른다고 생각하면 침묵을 지킬 수도 있습니다. 꽤 확신한다면 대답을 내뱉을 것입니다.
따라서 의미론적 검색 엔진에 "얄타 회의"를 입력하면 지식 세트를 살펴보고 아마도 몇 가지 기본적인 사실과 수치를 내뱉을 것입니다. “1945년 2월 4일부터 11일까지.” 이는 스탈린, 처칠, 프랭클린 루즈벨트가 참석했음을 의미할 수 있으며, 이는 세계 대전이 끝나가는 몇 달 동안에도 중요한 행사였습니다. II. 꽤 기본적인 것들.
문자 그대로의 검색 엔진에 "얄타회담은 한국전쟁 중에 일어났는가?” 아마도 10개의 파란색 링크 목록이 표시될 것입니다. 답이 있을 수도 있습니다.
그러나 의미론적 검색 엔진에 문의하면 "아니요"라는 한 단어로 대답해야 합니다.
저것 의미론적 검색이 엄청나게 흥미로운 곳입니다.
이거 울프램 알파 아닌가요?
이러한 쿼리가 사람들이 던지는 것과 같은 것처럼 들리면 울프램 알파 검색 엔진, 당신 말이 맞아요. Wolfram Alpha는 웹 페이지의 색인이 아닌 지식 엔진이 되려고 합니다. Wolfram Alpha는 웹 페이지와 같은 사물을 검색하는 것이 아니라 답변을 요청하는 것입니다. Wolfram Alpha는 사전 컴파일된 지식 기반을 사용하여 결과를 생성하며 회사는 정기적으로 새로운 지식 기반을 추가하고 업데이트하고 있습니다. 일부는 화학 원소나 초파리의 게놈에 대한 정보와 같이 고도로 전문화된 기술 데이터인 반면, 다른 일부는 좀 더 기발합니다. 예를 들어, Wolfram Alpha는 고양이 품종에 대해 꽤 많은 것을 알고 있습니다.
Wolfram Alpha의 지식 범위 내에 있는 한, 이는 유용한 데이터 분석을 수행할 수 있습니다. 예를 들어 Wolfram Alpha는 다음을 수행할 수 있습니다. 사자와 호랑이의 점프 거리를 비교해 보세요. (비슷한 것으로 밝혀졌지만 호랑이는 일반적으로 사자보다 우위에 있는 것 같습니다.) 하지만 알고 싶다면 캥거루는 얼마나 멀리 뛸 수 있나요?? 죄송합니다. 데이터가 없습니다.
그러나 캥거루 홉에 대한 실패한 쿼리는 Wolfram Alpha가 어떻게 사물을 이해하려고 하는지를 조금 보여줍니다. 답변을 제공하기 전에 엔진은 "캥거루"가 "캥거루, 왈라비”이지만 사용자는 안틸로핀 캥거루, 붉은캥거루 또는 동부회색캥거루로 전환할 수 있습니다. 캥거루. 마찬가지로 Wolfram Alpha는 "캥거루가 얼마나 멀리 점프할 수 있는지"를 "점프 거리"에 대한 쿼리로 해석했습니다. 이는 동물에 대해 가질 수 있는 특정 데이터 포인트입니다. 현재 Wolfram Alpha에는 해당 데이터가 없지만 쿼리 해석은 매우 중요합니다.
이거 시리 아니야?
이러한 질문이 사람들이 iPhone 4S에서 Siri에게 던지는 것과 비슷하다고 생각된다면(하지만 기억하세요. ~ 아니다 이번 주에 출시되는 새로운 iPad), 당신 말이 맞습니다. 그러나 Siri는 방정식의 절반만 처리한다는 점을 기억하는 것이 중요합니다. 즉 사용자의 쿼리를 이해하는 것입니다. 이를 통해 Siri는 마이크를 통해 사용자의 음성을 실시간으로 정확하게 인식해야 하는 매우 어려운 컴퓨팅 문제를 해결합니다. 이는 결코 작은 일이 아니지만 의미론적 검색 엔진은 아닙니다. 뒤에서 Siri는 Wolfram Alpha, Yelp 및 (다른 모든 방법이 실패할 경우) 사용자가 선호하는 웹 검색 엔진에 쿼리를 전달합니다. 시리에게 "한국전쟁 중에 얄타회담이 있었나요?"라고 물어보면 정확히 알아챌 수도 있다. 당신이 묻고 있는 것은 – 나에게는 그랬다 – 그러나 그것은 단지 구식 문자 그대로의 웹 검색을 제안할 뿐입니다. 너.
뭘 기대 할까
의미론적 검색에 대한 Google의 관심은 두 가지일 가능성이 높습니다. 첫째, 경쟁사보다 앞서 나갈 수 있는 또 다른 자랑거리로 이 기술을 사용하기를 원할 것입니다. 주로 Microsoft Bing입니다. Bing은 오랫동안 Wolfram Alpha와의 파트너십 가능한 경우 검색 엔진이 직접적인 답변을 제공할 수 있도록 설계되었습니다. 그러나 지금까지 Bing이나 Google은 직접 검색 결과를 통해 소비자에게 큰 진전을 이루지 못했습니다. 결국, 대부분의 일상적인 검색 사용자는 아마도 (제한된) 기능이 이미 존재한다는 사실을 알지 못할 것입니다. 이를 아는 사용자들조차 구글조차 이 기술이 검색의 10~20%에만 적용 가능하다고 생각하는 것 같다. 이는 검색량이 많지만 검색의 대부분(80~90%)이 이를 사용하지 않는다는 의미입니다.
그러나 소비자가 노트북, 데스크탑 및 기존 컴퓨팅 플랫폼을 빠르게 포기함에 따라 복잡한 검색 쿼리에 대해 짧고 쉽게 이해할 수 있는 답변을 제공하는 기능이 매우 모바일 세계에서 중요합니다. 운전 중이거나 키패드나 온스크린 키보드를 조작할 의사가 없는 사용자를 위해 "골든 게이트 파크는 공원인가요?"와 같은 음성 질문에 응답할 수 있는 기능 센트럴파크보다 크나요?” 또는 "말콤의 아파트로 가는 길은 어디인가요?" '예', '다음 왼쪽으로 가세요'와 같은 간단한 대답은 모바일의 귀중한 차별화 요소가 될 수 있습니다. 플랫폼.
Apple이나 Google과 같은 회사가 기술을 활용하려는 곳이 거의 확실합니다.
* Tombaugh는 1930년 2월 18일에 처음으로 명왕성을 움직이는 물체로 식별했지만 명왕성은 이전에 여러 차례 자신도 모르게 발견되었습니다. 현재 알려진 가장 오래된 것은 1909년이다. 보다? 지식은 미끄럽습니다.
사진 제공: Annette Shaff / Shutterstock.com
편집자의 추천
- 이제 모든 인터넷은 Google의 AI에 속합니다
- Bing을 사용할 필요가 없습니다. 이제 Google 검색에도 AI가 있습니다.
- 죄송합니다. Google Bard AI 데모가 첫 번째 검색 결과에서 반증되었습니다.
- Google 검색에서 클릭베이트를 해결하기 위한 계획은 다음과 같습니다.
- Google 검색에서 개인정보를 삭제하는 방법