다양한 기술 통해 기술 성숙도 향상, 데이터 검색 수요 꾸준히 증가

[컴퓨터월드] 우리는 정보 홍수 시대에 살고 있다. 정보가 기하급수적으로 늘어나면서 필요한 정보 또한 이에 비례해 늘어나고 있다. 그러나 필요한 정보를 찾아내는 것은 쉬운 일이 아니다. 빅데이터 분석을 위한 검색 기술의 필요성이 높아지고 있는 이유다. 과거 웹 문서 또는 기업 내 문서를 위한 검색 중심에서 이제는 빅데이터 중심의 검색으로 검색 시장이 변화하고 있는 것이다.

대용량 데이터를 체계적으로 관리하고 필요한 정보를 빠르게 찾을 수 있는 검색엔진 서비스를 제공하고 있는 기업들을 만나 이야기를 들어봤다. 

 

늘어나는 데이터에 비례해 검색 시장도 성장

한국데이터산업진흥원에 따르면 검색엔진은 구글이나 네이버 등 포털업체들이 웹상에서 불특정 다수를 대상으로 검색 서비스를 제공할 수 있도록 해주는 핵심 소프트웨어다. 기업이나 공공기관에서 그동안 축적해온 방대한 콘텐츠를 관리하기 위한 수단으로 활용하는 경우가 많다. 이것을 기업용 검색엔진(이하 검색엔진)이라고 한다.

검색엔진은 데이터베이스(DB)에 축적되고 정리돼 있는 정보 가운데 사용자가 필요로 하는 정보를 신속하게 찾아내는 소프트웨어다. 방대한 양의 기업 정보를 효율적으로 관리하고 신속한 의사결정을 뒷받침하기 위해서 반드시 필요한 솔루션이다. 기업 내부의 애플리케이션들을 통합하고, 기업 정보에 접근하는 방법을 단일화하려는 요구가 늘어나면서 검색엔진의 중요성은 더욱 강조되고 있다. 기업이 적재하는 데이터의 종류가 다양해지고 데이터의 양 또한 기하급수적으로 늘어나고 있어 이를 손쉽게 검색 및 분석, 처리해 활용하고자 하는 수요 또한 증가하고 있다.

IBM의 2021년 자료에 따르면, 전체 데이터의 80% 이상이 비정형 데이터로 기업의 95%가 비정형 데이터를 우선적으로 관리, 분석하고 있는 것으로 조사됐다. 그러나 이전에는 활용하지 않았던 비구조적 데이터들이 분석 대상에 포함됨에 따라 이를 어떻게 검색하고 분석해 활용해야 할지 모르는 기업들이 아직 대다수인 것으로 나타났다. 방대한 양의 데이터를 검색 및 분석할 수 있는 기술 및 제품에 대한 요구가 커지면서 검색 기술을 필요로 하는 시장 역시 지속적으로 성장할 것으로 예상된다.

 

옛 기법과 새로운 기법의 적절한 조화 필요

과거에는 사용자가 입력한 검색어와 잘 매칭된 결과를 제공하면 좋은 품질의 검색 서비스로 인식됐다. 이런 이유로 많은 검색 관련 회사들은 양질의 검색 결과를 제공하기 위해 사전 및 랭킹을 기반으로 확장된 검색 내에서 사용자가 만족할만한 결과를 내보내는 방식에 대해 고민했다. 하지만 최근 사용자들은 단순히 색인 데이터베이스에 매칭된 결과가 아닌 의미적으로 정확도가 높은 결과를 원하고 있다. 검색 서비스를 제공하는 기업 입장에서는 그만큼 어려운 과제가 생겨난 것이다.

와이즈넛 권준성 실장은 “과거 검색엔진에 대한 요구사항 중에는 ‘개인화 검색’이 있었다”고 말했다. 개인화 검색은 나만의 검색 결과와 키워드를 기반으로 AI가 머신 러닝을 통해 자동으로 사용자의 패턴을 찾아 검색 영역을 구축해주는 것이다. 여기서 개인화가 확장되면 여러 사람들의 검색 결과를 공통적으로 모아 집단 지성의 검색 결과를 보이면서 ‘추천 검색’으로 확장될 수 있다.

코난테크놀로지 오창민 기업부설연구소 인텔리전트엔진그룹 상무는 ‘문서 추천’과 ‘쿼리 추천’을 언급했다. 문서 추천은 검색 결과 이외에도 사용자가 관심을 보일만한 문서를 추가로 보여주는 것이다. 쿼리 추천은 검색 버튼을 누르기 전에 사용자에 입력하는 쿼리를 자동 완성시켜주는 기능이다. 이들 추천은 이미 십여 년 전부터 검색엔진 서비스에서 일반적인 기능으로 제공하고 있다. 오창민 상무는 “최근 사용자 검색 로그를 정교하게 분석해 자동완성 기능의 정확도를 높이는 연구가 이뤄지고 있다”고 말했다.

NHN다이퀘스트 검색그룹 오종건 전무는 “사용자가 원하는 결과를 찾기 위해 여러 키워드를 반복적으로 검색하는 과정을 보다 단축시키려는 노력이 현실화되고 있다. 말뭉치를 학습시켜 단순히 검색어 매칭이 아닌 질문의 의미를 엔진이 파악하게 해 자국어뿐만 아니라 외국어로 이뤄진 문서까지 검색을 확장하는 연구도 진행되고 있다”며, “가까운 미래에는 검색어를 단순 키워드가 아닌 복합 질문의 형태로 입력하게 될 것이다”라고 말했다.

서로 연관성이 없어 보이는 데이터를 군집화 또는 분류함으로써 좀 더 용이하게 검색 및 분석 할 수 있는 기술들에 대한 요구 또한 높아지고 있다. 이를 위해서는 기계학습과 같은 인공지능 방법론과 함께 전통적인 검색 기법도 필요하다. 다양한 형태의 비구조적 데이터를 검색 및 분석할 수 있는 형태로 저장하는 것은 기존 검색 기법에서 많은 연구가 이루어진 분야다. 이들 데이터를 분석하기 위해서는 인공지능을 활용해야 하기 때문에 기존의 검색 기법과 새로운 방법론을 적절하게 조화시켜 나가야 할 것이다.

코난테크놀로지 오창민 기업부설연구소 인텔리전트엔진그룹 상무는 “인공지능(AI) 기술을 검색엔진에 접목할 수 있는 방법이 무엇보다 중요하다. 생각할 수 있는 한 가지는 AI로 만들어지는 벡터 형식의 데이터를 검색할 수 있게 해주는 것”이라고 말했다. 현재 벡터 검색을 할 수 있는 공개된 알고리즘은 이미 시장에 나와 있다. 다만 대다수 알고리즘은 인-메모리 기반으로만 동작하고 있어 10억 건 이상의 대용량 데이터를 검색하기 위해서는 테라바이트에 가까운 메모리가 필요해 비용에 대한 부담이 크다.

오창민 상무는 “메모리는 휘발성이 있기 때문에 벡터데이터를 디스크에 주기적으로 동기화 해야 하는 문제를 해결해야 한다. 벡터검색 결과와 기존 키워드 검색 결과를 어떤 식으로 결합하고 정렬할 것인지도 고려해야 한다”고 조언했다. 물리적인 측면에서 디스크 기반 초대용량 벡터 검색을 지원해야 하고, 논리적인 측면에서는 기존 검색엔진 로직에 벡터 검색을 자연스럽게 융합시켜야 하는 두 가지 기술적인 이슈가 해결돼야 한다는 것이다.

 

클라우드 속 데이터 관리 방법이 관건

최근 ICT 인프라 환경은 온프레미스에서 클라우드로 변화하고 있다. 정부 역시 클라우드 대전환을 주요 과제로 삼고 디지털 플랫폼 정부를 외치고 있으며 클라우드 환경에 최적화된 소프트웨어(SW)와 인프라에 대한 요구가 지속적으로 증가하고 있다.

그동안은 기업 및 기관들은 솔루션 개발사가 제공하는 라이선스 형태로 솔루션을 도입했으나. 지금은 오픈소스 검색엔진을 활용하는 사례, 클라우드 기반 서비스형 소프트웨어(SaaS)를 활용해 검색 서비스를 제공하는 사례가 증가하고 있다.

와이즈넛 권준성 실장은 “과거 온프레미스 기반으로 기간계 시스템, ERP 시스템과 같은 문서 관리 시스템 등을 통합해 관리하고 검색했다면 지금은 클라우드의 자원을 활용해 업무 시스템의 확장성에 대한 요구가 늘어나고 있다”고 말했다. 데이터의 양이 많아지면서 클라우드에 있는 데이터들을 어떻게 하면 쉽게 수집하고, 쉽게 검색할 수 있는지가 관건이라는 것이다. 와이즈넛 제품은 클라우드 환경의 설정을 동기화해 복잡하고 다양한 노드 구성을 손쉽게 설정할 수 있다. 1개 노드의 설정만 변경해도 다른 노드들에 자동으로 적용돼, 환경 구성 시 사람의 실수를 줄이고 이를 통해 기존 대비 인력 리소르를 절감하는 효과를 가져온다. 설정 변경 후 재기동이 불필요해 무중단 검색 서비스도 제공하고 있다.

프로텐 또한 서버 이중화 및 색인 이중화 기능과 손쉬운 서버 확장(Scale out) 기능을 제공하고 있다. 멀티 프로세스/스레드(Thread) 병력 색인 처리와 같은 분산 검색구조를 지원하며, 데이터에 대한 색인 완료 이후 운영단계에서 추가 컬럼이 생겼을 경우 해당 정보만 색인을 추가할 수 있는 안정적인 검색 시스템을 운영하고 있다.

 

품질 유지 위한 지속적인 유지 보수 필수

대부분 검색엔진 서비스는 엔진 설치 후 데이터를 수집하고 색인화하는 구조를 기반으로 하고 있다. 웹 검색 특성상 도메인 데이터 성향에 따라 적용되는 구축 방식과 기법은 천차만별이다. 검색 엔진 솔루션 설치 후 계속해서 추가/수정되는 데이터가 존재하기 때문에 품질 유지를 위해서는 지속적인 유지 보수가 절대적으로 필요하다.

NHN다이퀘스트 검색그룹 오종건 전무는 “품질 유지를 위해 고객사에서 검색, 사용자 로그 및 검색 대상 데이터베이스 등의 데이터를 제공받아 분석 후 도메인 성향별로 데이터를 관리하고 있다”고 말했다. 이어 오 전무는 “비슷한 성향의 데이터를 보유하고 있는 도메인의 경우 해당 분석 결과를 참조해 서비스 구축 및 품질 유지에 활용하고 있다”고 덧붙였다.

코난테크놀로지 또한 자체적으로 서비스하고 있는 실시간 미디어 심화분석 서비스 ‘펄스케이(pulseK)’에서 실시간으로 SNS, 뉴스 등의 데이터를 수집·분석하고 있다. 수집 데이터는 아카이브 성격이라 R-DBMS(관계형 DBMS)와 HDFS(하둡 분산 파일 시스템)로 계속 누적시키고 있고, 여기서 일부 데이터를 추려 내 온라인으로 서비스하고 있다.

 

기업별 솔루션 및 향후 로드맵

프로텐, ‘프로서치’ / 사용자와 관리자의 편의성을 고려한 기능 제공

프로텐이 공급하고 있는 ‘프로서치’는 빅데이터 지능형 통합검색 솔루션이다. ‘프로서치’는 대용량 분산 환경을 통한 색인 및 검색이 가능한 구조로 이미 시장에서 검증된 검색엔진이다. 클라우드 환경에 최적화된 솔루션으로 확장성이 뛰어나고, 사용자 및 관리자의 편의성을 고려한 기능 제공으로 빠르고 정확한 검색 결과를 보여준다. ‘프로서치’는 △한글 형태소 분석기 △웹 기반 관리도구 및 개발도구 등을 제공한다.

‘프로서치’ 아키텍처 이미지
‘프로서치’ 아키텍처 이미지

‘한글 형태소 분석기’는 기계학습 기법으로 SVM(Support Vector Machine) 기반 미등록어 추정 및 CRFs(Conditional Random Fields)를 이용한다. 이를 통해 단어 또는 문장 단위의 입력 문자열로부터 각각의 음절분리와 태깅을 하고 색인어를 추출한다. 시소러스(Thesaurus), 동의어, 복합명사, 불용어, 사전 등과 대소문자 구별, 한자 한글 변환 색인과 연동해 정확한 검색 결과를 제공한다.

또한 ‘프로서치’는 운영/관리자가 검색엔진을 효율적으로 관리할 수 있도록 웹 기반의 관리도구를 제공한다. 대시보드/검색 통계/추천 관리/서비스 관리/사이트 관리/모니터링 등의 기능과 웹 기반 인덱스(index) 설정 기능을 제공한다.

프로텐은 현재 이미지 서치 및 형태소 분석기의 차별성을 위한 기술을 개발하고 있다.

 

코난테크놀로지, ‘코난서치’ / 비정형 데이터는 물론 벡터 타입 데이터 검색까지 가능

코난테크놀로지의 통합검색 엔진 ‘코난 서치(Konan Search)’는 형태소 분석의 풀 텍스트(Full-text) 검색에서 시작해 초대용량 빅데이터 검색을 거쳐 AI 기술을 적용한 강화된 검색으로 발전하고 있다.

정형 데이터 집계 연산에서부터 벡터타입 AI 데이터 검색까지 추상성이 높은 모든 검색기술을 집약해 놓은 제품으로 기술적 차별점이 벡터 검색이다. 벡터 검색이란 인메모리에서만 동작해 10억 단위(billion scale)의 데이터 처리에는 사용할 수 없던 인공신경망(ANN) 검색 알고리즘을 디스크에서 동작할 수 있게 한 기술이다. 물론 벡터검색도 오픈 소스 기반이라 천만 건 정도의 데이터는 가능하나 1억 건이 초과되면 다루기 힘든 부분이 있다.

‘코난 서치6’ 주요 기능
‘코난 서치6’ 주요 기능

그럼에도 코난테크놀로지는 대용량 데이터 처리에 강점이 있다는 점을 내세우고 있다. 오창민 상무는 ‘코난 서치’의 벡터검색으로 경쟁사는 해결하지 못 했던 고객의 문제를 해결한 경우가 있다고 말했다. 바로 행안부의 초대용량 문서 중앙화 검색 윈백 사례다. 정보공개사이트의 경우 13년 동안의 17억 건의 데이터를 검색해야 하는데, 경쟁사의 검색 기술로는 17억 건의 단 3.1%인 0.52억 건만 검색돼 프로젝트가 실패했다. 이에 행정안전부에서 코난테크놀로지에 문제 해결을 요청했고, 코난테크놀로지는 적은 서버로 17억 건의 데이터에 대한 검색을 가능하게 했다는 것이다.

코난테크놀로지는 ‘코난 서치 6.0’에서 부터 제공하기 시작한 벡터검색 기능을 고도화 하고 임베딩이나 자동요약 등 AI모듈 기능을 덧붙여 나가고 있다. 내년 2분기까지 쿠버네티스 기반으로 동작할 수 있도록 기능을 고도화해 6.1을 발표할 계획이다.

 

와이즈넛, ‘서치 포뮬러원 V7’ / 순수 자체 기술 기반 초대용량 빅데이터 처리에 최적화

와이즈넛의 ‘서치 포뮬러원(Search Formula-1) V7’은 자체 기술로 개발한 자연어 처리, 질의서 분석, 형태소 분석 등을 적용한 인공지능 검색 솔루션이다. 초대용량 빅데이터에 최적화 돼 있어 방대한 데이터 처리에 특화됐다. ‘서치 포뮬러원 V7’은 온프레미스 환경과 클라우드 환경에서 모두 구동이 가능한 하이브리드 구조를 갖고 있다. 네트워크망이 연결돼 있다면 하나의 클러스터로 혼합된 형태로도 동작이 가능하다. 또한 시스템 환경에 따라 최적화된 병렬 색인을 통해 대량의 데이터 유입 시에도 신속하고 안정적인 서비스를 제공한다.

‘서치 포퓰러원 V7’시스템 구성 이미지
‘서치 포뮬러원 V7’시스템 구성 이미지

‘서치 포뮬러원 V7’의 기능으로 다양한 형태의 데이터(데이터베이스, 파일, 웹 등)을 수집하기 위한 ‘수집기(Bridge)’가 있다. 또한 ‘형태소 분석기’로 색인된 문서를 통계화해 이를 기계학습함으로써, 정확도 높은 형태소 분석과 효율적인 사전 관리 기능을 실현했다. 형태소 분석기는 확률 모델링 기반으로 문장에서 가장 확률이 높은 형태소 후보를 선정해 분석 정확도가 높은 결과를 제공한다.

와이즈넛은 고객사에 제공된 서비스의 장애를 최소화하고 원활한 서비스 운영관리를 위해 와이즈넛의 제품 지원 정책을 수립, 총 5년간 다양한 기술지원 서비스 및 3단계 장애 대응 방안 등을 제공하고 있다.

검색 속도를 향상시키고 색인 압축률을 높여 공간을 효율적으로 사용할 수 있도록 제품 고도화를 추진하고 있다. 향후 버전에 힌디어와 같은 언어를 추가할 계획이다.

 

NHN다이퀘스트, ‘마리너’와 ‘다이버’ / 랭킹 모델과 확장 키워드 검색 위한 다양한 관리 기능 보유

NHN다이퀘스트의 ‘마리너’와 ‘다이버’는 NHN다이퀘스트에서 출시되는 다양한 솔루션들의 기반 기술로 활용되고 있다. NHN다이퀘스트의 검색엔진은 다양한 랭킹 모델과 확장 키워드 등을 관리할 수 있는 사전 관리, 시스템 리소스 관리, 문서관리 등 검색 운영에 필요한 많은 기능들을 갖고 있다.

‘마리너’ 솔루션 구성
‘마리너’ 솔루션 구성

‘마리너’는 한글 문서를 보다 정확하게 검색하고 활용 할 수 있는 기능들을 갖고 있다. 특히 현재 기업에서 생산되고 있는 데이터의 대부분이 한글 자연어 형태라는 점을 감안해 한글 자연어 처리에 역량을 집중했다. CSV, TXT, HWP, DOC, PDF 등 문서 형식에 관련 없이 검색 분석이 가능한 형태로 적재할 수 있다.

‘다이버’ 솔루션 구성
‘다이버’ 솔루션 구성

‘다이버’는 쇼핑몰에 적합한 제품으로 고객이 보다 손쉽게 상품을 찾을 수 있도록 하는 서비스를 제공하고 있다. 협업필터링을 사용한 추천 기능, 사용자 그룹별로 검색 서비스를 차등 제공하는 기능도 탑재하고 있으며, 상품 마케팅이나 기획 등에서 의사결정을 위한 근거로 활용 가능한 검색 로그 등을 분석해 통계 자료로 제공한다.

NHN다이퀘스트는 2023년부터 ‘마리너’와 ‘다이버’의 신규 버전을 순차적으로 출시할 예정이다. 현재도 클라우드 환경에서 ‘마리너’와 ‘다이버’를 적용한 검색 서비스가 제공되고 있으나, 단순히 클라우드 상에 온프레미스로 설치되는 형태가 아닌 클라우드 네이티브한 환경에 적합한 버전을 내놓는다는 계획이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지