구글 야후 MS 등 차세대 기술 선보이며 시장 쟁탈전 치열






기업용 검색 엔진 시장을 두고 업체간 경쟁이 뜨겁게 달아오르고 있다. 구글과 야후, 마이크로소프트 등이 차세대 기술을 선보이며 정보 검색을 자동화하고 개인화할 수 있는 제품을 공개함에 따라 시장 쟁탈전이 더욱 치열해지고 있는 모습이다.

문장을 입력하고 엔터키를 치면 결과물을 제시하는 작은 브라우저 툴인 검색 엔진은 효율성이 떨어져 원하는 결과를 얻기가 쉽지 않다는 악명을 받고 있다. 마이크로소프트에 따르면, 사람들이 원하는 결과를 찾아내기까지 평균적으로 11분 정도 검색하며 이중 절반은 중도에 포기해버리는 것으로 조사되었다. 가트너는 방문객이 원하는 결과를 찾지 못해 입게 되는 매출 손실이 전체 웹 관련 매출의 절반 정도에 달하는 것으로 추정했다.

구글과 마이크로소프트, 야후를 비롯한 검색 전문 업체들이 검색 결과를 만족할만한 수준으로 끌어올리기 위해 차세대 기술 개발에 열을 올리고 있다. 새롭게 등장하는 툴을 통해 사람들은 이제 더 이상 1세대 검색 엔진이 제공했던 답답한 결과물에서 벗어날 수 있을 것으로 기대된다.

사용자들이 얻게 될 검색 결과에는 오디오와 비디오 파일, 파워포인트 슬라이드를 비롯해 체계화된 데이터를 웹과 PC, 기업용 데이터베이스로부터 불러온 모든 총체적인 정보가 포함될 수 있다.

검색 결과는 더욱 정확해질 것이며 사용자의 선호도에 따라 관련 내용이 자동으로 요약될 것이다. 클러스터링과 그래픽 스케일 등 새로운 제공 방식도 등장해 결과를 찾는데 훨씬 수월해질 수 있다. 또한 검색 엔진이 인간의 지능을 비롯해 사회적인 북마크, 검색 공유 등의 기능을 탑재하면서 더욱 진화될 것이다.

현재 예상되는 검색 엔진의 발전 방향을 살펴보면 다음과 같다.

학습 언어

현재 대부분의 검색 엔진은 키워드로 언급되는 속기성 언어를 필요로 한다. 검색에 자연어 프로세스를 적용하고 있는 신생 업체인 파워셋(Powerset)의 바니 펠 CEO는 이를 두고 "2살짜리 아이가 말하는 것과 같다"면서, "검색 엔진은 보다 정교해질 필요가 있으며 의미를 이해하는 단계로 진화하게 될 것"이라고 밝혔다.

파워셋을 비롯해 Hakia 등의 기업들은 질문을 해석하고 웹 컨텐츠를 분석하며 필요에 따라 사용자와의 상호 작용을 통해 결과를 조정하기 위해 언어의 과학인 언어학을 적용하는 검색 엔진을 개발하고 있다. Hakia의 리자 버칸 CEO는 향후의 검색 엔진에 대해 "검색 엔진을 학습시킬 경우 총명한 피조물이 될 수 있을 것"이라고 말했다.

논리적인 추론이 가능한 검색 엔진은 학생들이 사전을 사용해 단어의 뜻을 해석하고 문장의 구조를 분석하는 것처럼 문장을 해부하고 분석할 수 있다. "IBM이 티볼리를 1996년에 7억4,300만 달러에 사들였다"라는 문장에는 매입과 매입자, 매입 대상, 매입 년, 인수 가격 등의 개념이 포함되어 있다.

지금까지는 프로세스가 사람들이 언어의 규칙을 적용하고 검색 범위를 좁히기 위해 카테고리를 조정해야 가능했지만 향후에는 사람들의 도움이 없이도 엔진이 직접 의미를 분석해 결과를 내놓을 수 있을 것이다. 버칸은 "완벽히 자동화될 경우 인간을 창조한 것과 다름없을 것"이라고 밝혔다. 구글과 야후 등 웹 검색 엔진 역시 언어학을 도입하고 있지만 파워셋이나 Hakia 등 의미론적인 검색에 비해 상당히 뒤쳐져 있다. 구글의 검색 엔진이 철자를 검사하고 유사어나 파생어를 제시할 수는 있지만 언제나 질문에 정확하게 답변하는 것은 아니다.

기업용 검색 업체인 오토노미(Autonomy)의 기술은 보존 문서에 대한 게이트웨이인 FPI(Federal Preservation Institute)의 HPLP(Historic Preservation Learning Portal)을 채택하고 있다. FPI는 비전문가들이 정보를 찾는 것을 지원하기 위해 의미론적인 검색 방법을 사용하고 있다.

IBM은 의료와 정부 분야에서 전문화된 텍스트 분석 작업을 진행하고 있다. 고객들은 IBM의 OmniFind Analytics 검색 엔진을 사용해 문서가 주제에 대해 긍정적인가 부정적인가 여부를 판단하는 등 감정의 뉘앙스를 결정하고 전문 용어나 개념을 정의하고 있다.

'쿼리'가 없는 검색

우연히 발견하는 능력은 경이로운 스승이라 할 수 있다. 개발중인 검색 엔진은 과거의 쿼리를 토대로 프롬프트가 없어도 당신 대신에 검색을 실행할 수 있을 것이다. 또한 워드 문서나 액셀 스프레드시트의 컨텍스트를 사용해 관련 정보에 대한 검색을 실행할 수도 있게 될 것이다. 애플의 아이튠스(iTunes) 프로그램은 청취자가 하드 드라이브에서 재생할 경우 관련 음악을 아이튠스 스토어에 전시함으로써 유사한 기능을 제공하고 있다.

하지만 이러한 미래를 실현하기는 쉽지 않다. IDC의 수잔 펠드만 분석가는 "우연성은 검색이 실행하는데 있어 가장 어려운 것"이면서 "계산하기가 쉽지 않으며 인터페이스 설계도 어렵다"고 밝혔다.

미디어리버(MediaRiver)는 다운로드가 가능한 검색 엔진인 왓슨(Watson)을 개발했다. 왓슨은 사용자의 쿼리가 없어도 웹을 검색하고 결과를 보여주는데 있어 웹 브라우저나 PC 애플리케이션 안에 있는 정보를 사용한다. 미디어리버의 알 와서버거 CEO는 "왓슨은 훌륭한 제품이었지만 비즈니스로 연계되지는 못했다"고 말했다. 대신 왓슨은 미디어리버의 ClickSurge에서 '제2의 삶'을 얻었다. ClickSurge는 웹 페이지에서의 중요한 개념을 판단하고 페이지 어디에서나 관련 링크를 내장한다.

하지만 쿼리 없는 검색은 아직 상상에 불과하다. 구글과 야후는 사용자들에게 검색에 가입할 것을 권해왔으며 가입 후에는 새로운 결과가 등장할 때에 이메일로 받을 수 있다. StumbleUpon과 Google Dice 등 브라우저 툴바 버튼은 웹 히스토리를 사용해 사용자에게 권장 사이트를 발송한다. 야후의 Y!Q 서비스와 모질라 파이어폭스(Firefox)는 웹 페이지에서 단어와 문장에 하이라이트를 표시해 검색할 수 있는 기능을 포함하고 있다.

개인화

검색 엔진이 검색자를 알면 알수록 검색자의 의도를 파악할 수 있는 학습이 가능해진다.

구글의 개인화된 iGoogle 페이지는 사용자수에서 볼 때 가장 빠르게 성장하고 있는 제품이다. 구글은 RSS와 '가젯'을 통해 사용자들이 원하는 것이 무엇인지 학습했다. 사용자들은 이전 검색을 토대로 한 정보로 채워진 구글의 홈 페이지에서 Recommendations 탭을 설정할 수도 있다.

구글 계정을 가진 사용자들은 모든 검색 내용을 저장할 수 있다. 이에 대해 구글의 개인화 기술 담당자인 셉 캠바는 "쿼리 명확화"라고 부르고 있다. 예를 들면, 누군가가 컴퓨터에 관심이 있고 '애플'을 자주 검색한다면 애플이 과일이 아니라 회사를 지칭한다는 것이다. 검색된 데이터는 구글이 브라우저 툴바 버튼인 iGoogle 탭이나 웹 히스토리 페이지를 통해 추천할 수 있는 능력을 확보할 수 있게 해준다.

사회적인 기술

웹의 초창기 시절부터, 검색은 사회적인 측면을 갖고 있었다. 야후는 회사 설립자가 관심을 갖고 있던 사이트를 연결해주는 링크 리스트로 시작했다. 구글의 페이지순위(PageRank) 알고리즘은 웹의 페이지 연결 개수를 토대로 하고 있다. 웹 2.0의 등장으로 인해, 검색 엔진은 사회적인 북마크와 태그, 검색 공유 등의 개념을 도입하면서 사회적인 기능을 확장하고 있다.

야후의 팀 메이어 검색 부사장은 사회적인 기능을 차별화하는 것이 야후의 전략이 될 것이라고 밝혔다. 사람들이 웹 쿼리에 대답하는 Yahoo Answers는 최근 일반적인 검색 결과와 함께 제공되기 시작했다. 야후가 사회적 북마크 사이트인 Deli.cio.us를 인수한 것도 사회적인 북마크가 야후의 표준 기능이 되리라는 것을 암시하는 것으로 볼 수 있다.

주석이 달린 지도를 사람들이 공유할 수 있도록 해주는 Collections이라는 검색 공유 기능을 보유하고 있는 마이크로소프트는 사용자가 만든 비주얼의 '태그 구름(tag clouds)'를 구현할 수 있는 방안을 모색하고 있다고 사트야 나델라 부사장이 전했다. 기업용 검색 업체인 Vivisimo는 직원들이 검색 결과에 태그를 붙이고 순위를 매기며 주석을 달 수 있는 기능을 테스트하고 있다. Connectbeam은 태그 부착 및 사회적 북마크 기술을 검색 제품의 한 계층으로 판매하고 있다.

하지만 태그 구름과 사회적인 북마크는 한계를 갖고 있다. 태그가 많아질 경우 검색의 신뢰성이 낮아지며 태그가 너무 없으면 관련 정보가 너무 방대하게 나올 수 있다고 오토노미의 마이크 린치 CEO가 밝혔다. 구글의 선임 엔지니어인 매트 커츠는 태그와 사회적인 북마크가 스팸 발송자의 주요 타깃이 되고 있다고 지적했다.

결과 지향적

검색 엔진은 사용자가 원하는 결과를 가장 정확하게 보여준다는 점에서 결과 지향적이다. 마이크로소프트의 Live Search에서 '시애틀 교통'을 치면 시애틀의 교통 상황과 함께 가장 빠른 길을 안내하는 도로 상황이 뜬다. 구글에서 '애브라햄 링컨의 생일'을 치면 링컨의 생년월일과 함께 관련 URL이 뜬다.

Clusty라 불리는 소비자용 검색 엔진도 운영 중인 Vivisimo는 웹 페이지의 텍스트를 읽어들여 의미론적인 분석을 사용해 유사한 것끼리 소그룹으로 묶어 주제에 좀더 가까운 결과를 보여준다.

Endeca도 Vivisimo와 같은 기능을 통해 비슷한 주제를 범주로 묶는다. 홈데포(Home Depot)의 경우 Endeca를 도입해 웹 사이트를 운영하고 있다. 냉장고를 입력하면 카테고리와 가격, 브랜드별로 정보가 나타난다.

Factiva는 Fast Search & Transfer의 기술을 사용해 블로그에 올라있는 내용을 검색하며 브랜드에 대한 미디어 사이트도 검색한다.

다면적인 검색

현재의 웹 검색 엔진들은 HTML 파일과 PDF, 오피스 파일, 오디오 및 비디오, 이미지를 메타데이터에서 분리해 보여줄 수 있다. 미래의 엔진들은 메타 데이터에 의존하지 않고도 이미지와 오디오, 비디오를 직접 검색할 수 있게 될 것이다.

구글의 범용 검색의 경우 이러한 방향으로 나아가는 초기 단계에 해당되며 오토노미의 기술 역시 유사하다.

의류와 액세서리를 판매하고 있는 Like.com은 이미지 검색이 나아가고 있는 방향을 보여주는 대표적인 사례에 해당된다. Likeness Search 기능을 통해 색상과 모양, 패턴의 선호도에 따라 분류되고 있다. 마이크로소프트와 구글 역시 이러한 이미지 검색 기술을 개발하고 있다.

검색 혁명은 앞으로도 계속될 것이다. 방대한 양의 정보가 넘쳐흐르는 웹과 기업 데이터베이스에서 사용자가 원하는 것을 찾아주는 검색 툴의 변화는 불가피할 수밖에 없기 때문이다.

검색 엔진 현황
대표주자
오토노미(Autonomy) 요약본, 클러스터, 분석을 지원하는 기업용 검색 제품
패스트(Fast) 모바일 검색과 개인용 검색 옵션을 제공하는 기업용 검색 플랫폼
구글 기업 시장을 위한 검색 어플라이언스와 개인화된 검색 기능에 초점을 맞춤
마이크로소프트 라이브 서치 맵스(Live Search Maps)와 모바일(Live Search for Mobile) 등 PC와 웹

검색을 뛰어넘은 기능 제공
야후 Del.icio.us 인수와 Yahoo Answers 등으로 사회적인 검색 기능 추가
도전자
Collarity 다른 사람들이 검색한 내용을 토대로 관련 있는 결과를 보여주는 엔진 탑재
Endeca 검색 결과를 항목별로 자동 분류해주는 정보 접근

플랫폼(Information Access Platform)
Hakia 의미론적인 웹 검색 엔진 베타 테스트 중
IBM Enterprise와 Analytics 에디션으로 OmniFind 배포; 야후와 공동 후원한 무료 버전
Like.com 웹에서의 비주얼 검색 엔진 테스트 중
MediaRiver 검색용 웹 페이지 컨텐츠와 관련 컨텐츠를 제공하는 ClickSurge
Powerset 제록스 PARC와 개발한 자연어 웹 검색 엔진
Vivisimo 클러스터에서 결과를 나누어 보여주는 Velocity 기업용 검색 엔진

InformationWeek

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지