가트너 하리타 칸다바투 시니어 디렉터 애널리스트
[컴퓨터월드] 생성형 AI는 지난 수십 년 동안 우리의 삶을 혁신적으로 바꿔 놓은 가장 파괴적인(Disruptive) 기술 중 하나였다. 이 기술의 발전으로 애플리케이션 리더들에게 지식 관리(Knowledge Management)가 주요 관심사로 다시 떠오르고 있다. 가트너의 연구 결과에 따르면, 리더들 중 79%가 2023년 조직의 목표 달성을 위해 지식 관리와 인사이트의 중요성을 강조한 것으로 나타났다.
애플리케이션 리더들은 지식 관리 분야에서 생성형 AI를 활용하려 하지만, 어디서부터 시작해야 할지 모르는 경우가 많다. 여기에서는 지식 관리의 세 가지 핵심 기능인 캡처(Capture), 검색(Retrieve), 공유(Share)를 중심으로 생성형 AI가 각 기능을 향상시켜 지식 자산에서 최대 가치를 창출하고 정보에 기반한 의사 결정을 내릴 수 있도록 지원하는 방법을 소개한다(그림 1 참조).
지식 캡처를 촉진하는 LLM과 생성형 AI
대규모언어모델(Large Language Model, 이하 LLM)과 생성형 AI는 지식 캡처에 직접적으로 적용된다. 지식 캡처란 누군가의 머릿속에 있는 암묵적 지식을 명시적 지식으로 전환해 지식창고 문서와 같은 외부의 영구적인 형태로 저장하는 것을 의미한다. 이는 지식 관리의 최대 과제라 할 수 있다. 주제 전문가(Subject Matter Expert, 이하 SME)들은 그들이 가진 전문 지식을 문서나 위키 항목으로 체계화하기 위해서는 많은 시간을 할애해야 한다. LLM과 생성형 AI를 활용할 경우 여기에 들어가는 시간을 줄일 수 있다.
생성형 AI는 지식 자산의 기초로 회의 및 대화 기록을 사용할 수 있다. 원격 또는 하이브리드 근무 환경의 부수적인 이점 중 하나는 대부분의 상호작용이 팀즈(Teams), 웹엑스(Webex) 및 줌(Zoom)과 같은 비디오 협업 도구를 통해 이뤄진다는 것이다.
또한 이메일, 워크스트림 협업 및 채팅 기록 등 다른 협업 도구들도 유용하다. 각 도구는 상호작용을 기록으로 남길 수 있고 이러한 기록은 생성형 AI의 요약, 추출 및 서식 지정에 유용한 기초 자료가 된다.
SME에게 특정 주제에 대해 알고 있는 모든 지식을 문서화하도록 요청하는 것보다 웹캠을 통해 간단히 설명하게 하거나, 해당 지식이 필요한 동료가 직접 SME를 인터뷰하는 방식이 더 효율적일 수 있다. SME가 동료에게 지식을 즉각적으로 전달할 수 있으며, 그 대화를 요약해 핵심 사항을 추출하고, 그 결과를 지식창고 콘텐츠 표준에 맞게 형식화할 수 있기 때문이다.
이러한 명시적인 지식 캡처 작업 외에도 스프린트 종료 시연, 제품 시연 및 기능 설명도 유사한 방법으로 캡처할 수 있다.
지식 캡처는 기존의 명시적 리소스인 지식 베이스, 위키 문서 또는 기타 콘텐츠 저장소 등을 통해 한 단계 더 발전할 수 있다. 검색 증강 생성(Retrieval-Augmented Generation, 이하 RAG)은 검색 엔진을 사용해 기업 리소스를 찾아 가져오고, 해당 콘텐츠에 대해 수행할 작업을 설명하는 지시 사항과 함께 프롬프트의 일부로 LLM에 전달한다. 이를 통해 기업 전체의 지식 리소스를 생성형 AI의 원자료로 활용할 수 있다. 또한 특정 주제나 이슈와 관련된 다양한 지식 리소스를 수집하고 재조합해 단일 자산으로 통합하거나 여러 형태로 재구성할 수 있다. 이러한 기능을 지원하는 프로세스와 인프라는 복잡할 수 있지만, 다양한 분야에서 매우 유용하게 활용될 수 있다.
그러나 AI가 생성한 모든 콘텐츠, 심지어 그것이 이전에 게시되었던 정보라도 현재 업데이트가 이루어지는 정보라면 사람이 검토하고 검증해야 한다. LLM은 그럴듯해 보이는 답변을 작성하지만, 그 답변의 정확성까지 보장하지는 않는다.
또한 프롬프트 자체의 구성 방식이 결과물에 큰 영향을 미칠 수 있어 프롬프트의 문구나 지시 사항을 조금만 변경해도 완전히 다르거나 모순적인 결과가 출력될 수 있다. 그렇기 때문에 추출되거나 캡처된 지식은 게시되기 전에 사람, 가급적이면 해당 분야 전문가의 확인을 받아야 한다.
지식 자산이 생성돼 형식이 지정되고 검증된 이후에는 이를 유지하고 관리해야 한다. 이 과정에서는 원활한 관리와 검색을 위해 일관된 메타데이터가 필요하다. 여기서도 생성된 지식 자산에 적합한 메타데이터를 선택하고 적용하도록 LLM에 요청할 수 있다. 이상적으로는 표준 메타데이터 요소 세트와 해당 필드에 유효한 값이 포함된 용어 목록이 LLM에 제공돼야 하며, 이는 일관된 메타데이터를 보장하지는 못하더라도 적용 과정을 개선하고 간소화해 전반적인 지식 환경의 품질을 향상할 수 있다.
애플리케이션 리더에게 추천하는 방식은 LLM과 생성형 AI 서비스를 통해 기록 및 요약을 동시에 수행하고 일반적인 상호 작용의 부산물을 구조화된 지식 자산으로 전환하는 것이다. 또한 자동으로 요점을 추출하고, 기업 스타일의 가이드라인과 템플릿에 따라 결과물의 형식을 지정함으로써 해당 기술의 활용을 극대화할 수 있다.
대규모 언어 모델을 통한 검색 기능 강화
모든 기업에는 고유한 지식 검색 요구 사항이 있으며, 이는 선형적 접근 방식을 따르는 구글(Google)과 같은 플랫폼의 일반 사용자와는 다르다. 선형적 접근 방식에서는 쿼리가 데이터 세트에 매칭되며 유사성에 따라 결과의 순위가 매겨진다. 그러나 기업 환경에서는 이러한 접근 방식이 정확하고 관련성 높은 내부 정보를 찾는 직원들의 특정 검색 요구를 충족하기에는 부족한 면이 있다. 특히 직원들이 데이터 프라이버시 보호 규정(GDPR), 의료정보보호법(HIPAA) 또는 회사별 데이터 거버넌스 정책 등을 준수하면서 필요한 정보를 찾아야 하는 상황에서 더욱 그렇다.
기업의 검색 시스템은 내부 쿼리의 구체성을 요구하며 중복되고 모호한 정보를 제거한다. 이러한 시스템은 대화, 질문 답변 및 추천 시스템의 구성 요소 역할을 한다. 가트너의 2022년 서비스 및 지원 지식 관리 거버넌스 설문조사에 따르면, 통합 검색 기능이 올바른 정보를 찾는 데 효과적이라고 생각한 리더는 1/3 미만인 것으로 나타났다.
검색(Search and Retrieval, 이하 SR) 시스템은 용어 기반 방식에서 시작해 시맨틱(Semantic) 벡터 검색과 같은 고급 딥러닝 기술과의 결합을 통해 급속도로 발전했다. 딥러닝 기술은 복잡한 문맥 신호와 의미론적 뉘앙스를 포착하는 데 탁월한 능력을 발휘해 SR 환경을 재편하고 있다. 이러한 발전에는 기존 방식과 최신 신경 아키텍처의 결합, 즉 빠른 응답이 가능한 용어 기반 희소 검색 방법과 벡터 데이터베이스(DB) 시스템만큼이나 강력한 언어 이해 능력 및 엔티티 관계 데이터베이스를 갖춘 LLM의 조합이 필요하다.
기업의 SR 시스템 내에서 LLM을 적용하는 대표적인 방법 중 하나는 컨텍스트 내 학습(In-Context Learning, ICL)을 활용하는 것이다. 기존의 SR 시스템에는 쿼리 재작성기(Query Rewriter), 리트리버(Retriever), 리랭커(Reranker), 리더(Reader)의 네 가지 주요 엔터티로 구성되며, LLM을 통해 다음과 같이 강화될 수 있다.
● 쿼리 재작성기(Query Rewriter): 사용자가 입력한 쿼리를 보다 정확하고 표현하기 쉽게 다듬는다. 기존의 재작성기는 사전에 정의된 규칙에 따라 사용자 의도와 최대한 일치하도록 쿼리를 수정했다. LLM은 사용자 의도의 미묘한 뉘앙스를 완벽하게 포착해 쿼리 작성 기능을 강화한다.
● 리트리버(Retriever): 사용자 쿼리에 기반해 광범위하게 관련된 문서를 수집하는 1차 문서 필터 역할을 한다. LLM은 리트리버 모듈이 뛰어난 시맨틱 기능을 발휘하고 복잡한 사용자 의도를 정확히 인식할 수 있도록 지원한다.
● 리랭커(Reranker): 검색기가 찾아낸 문서 목록의 순위를 쿼리-문서 관련성을 기준으로 재조정하는 것을 목표로 한다. LLM은 대규모 데이터 세트를 결합하고, 순위에 대한 설명을 제공하며, 해석 가능성을 개선함으로써 순위를 재조정하는 데 도움을 준다.
● 리더(Reader): 문서 모음을 기반으로 자연어 응답을 생성한다. LLM에 지속적으로 문서를 제공함으로써, 생성된 응답은 원래의 검색된 목록보다 더욱 정확하고 풍부한 정보를 제공한다.
SR 생태계에서의 LLM과 딥러닝 기술의 통합은 뛰어난 언어 이해, 생성, 일반화 및 추론 능력을 바탕으로 자연어 처리의 패러다임의 전환을 의미한다. 그러나 시맨틱 벡터 검색은 종종 검색 품질이 저하되는 문제에 직면하는데, 이는 지식 문서가 너무 밀집돼 있거나 LLM의 학습 데이터를 충분히 반영하지 못하기 때문이다. 검색 품질을 향상하기 위해 키워드 기반의 신경망 검색 방식을 통해 관련성이 높은 콘텐츠 그룹에 대한 특정 키워드를 식별함으로써 검색 결과의 일치도를 높일 수 있다. 또한 콘텐츠 그룹 주변 환경에 대한 문맥 정보를 메타데이터에 추가함으로써 검색 결과를 더욱 개선할 수 있다.
이에 더해, LLM은 SR 시스템의 내결함성을 개선하는 데 다방면으로 활용될 수 있다. 첫째 기존 방법보다 더 정확하게 결함을 감지하고 진단할 수 있다. 둘째 장애 상황을 보다 신속하고 효율적으로 복구할 수 있다. 마지막으로 장애 발생을 사전에 예방할 수 있다. 결국 LLM은 SR 시스템의 안정성과 가용성을 개선하는 데 도움을 줄 수 있다. 그렇기에 LLM을 배포해 기업의 검색 환경을 개선하고 검색 정확도를 높여야 한다.
지식 공유 대상자 확보
기업의 주요 지식 저장소는 직원들의 두뇌다. 지식을 필요로 하는 직원들을 위해 이를 효과적으로 활용하는 것은 모든 기업의 지속적인 과제다. 지식 관리 이니셔티브와 도구를 제공하는 공급업체들은 콘텐츠 및 데이터의 형태로 명시된 지식의 캡처, 저장 및 검색에 집중하는 경향이 있다. 이로 인해 직원들 간의 직간접적인 지식 공유는 종종 간과되며 직원들이 무엇을, 누구를 알고 있는지를 기반으로 서로를 찾을 수 있도록 지원하는, 이른바 ‘전문 지식 위치(Expertise Location)’ 도구가 부족한 상황이다.
현재 시장에는 직원들을 다양한 방법으로 연결하는 여러 애플리케이션이 존재한다. 이 도구들은 주로 직원들의 프로필을 통해 그들이 누구인지, 어떤 지식을 갖고 있는지 누구를 알고 있는지 파악하는 데 중점을 두고 있다. 그러나 이러한 기능을 제공하는 공급업체나 제품은 거의 존재하지 않으며 프로필의 생성, 유지 및 관리하는 책임은 대개 고용주 또는 직원에게 있다. 프로필의 수와 변경 빈도를 고려할 때, 이를 생성하고 유지 및 관리하기 위해서는 전담팀을 두거나 직원들이 자발적으로 기여하는 것이 필요하다.
하지만 당연하게도 이는 현실적인 문제를 마주하게 될 것이다. 이러한 이니셔티브는 수작업을 요구하기 때문에 규모가 작은 조직이나 의지가 강한 조직을 제외하고는 확장되기 어렵다. 그렇기 때문에 생성형 AI는 지식 관리의 이러한 측면에 상당한 영향을 미치게 될 것이다. 초기 단계에서는 시스템 구축 측면에서 영향을 미치겠지만, 이후에는 관련 벤더들이 자사 제품에 생성형 AI 기능을 통합함에 따라 구매 방식에도 변화가 생길 것이다.
학습 측면에서 LLM은 사실상 고정된 블랙박스와 같지만, 프롬프트 엔지니어링을 통해 LLM의 출력을 조정할 수 있다. 이를 통해 분류, 추출, 생성 및 요약 등 다양한 자연어 처리 기능을 구현할 수 있으며, 전문 지식 프로필을 수동으로 유지 관리하는 데 필요한 기능을 정확하게 제공할 수 있다.
- 연결된 데이터에서 사실 추출
전문 지식 프로필의 콘텐츠는 사용자가 상호 작용하는 수많은 파일, 메시지 및 애플리케이션에서 가져올 수 있다. 인사이트 엔진을 사용하여 이러한 데이터 소스를 적절히 크롤링하고 색인을 생성하면 벡터화를 통해 일치하는 문서를 식별할 수 있다. 일단 문서가 식별되면, 찾고자 하는 데이터에 적합한 디지털 자산을 식별하고, 추출할 항목과 필요한 형식에 대한 지침을 프롬프트에 입력할 수 있다. 이후에 추출된 데이터는 프로필 생성을 위한 보조 데이터 모델에 저장된다. 이처럼 생성형 AI를 사용하면 일반인도 자연어를 통해 전문가의 복잡한 프로그래밍이 필요한 작업을 수행할 수 있다.
- 프로필 생성
구조화된 데이터는 구조화된 템플릿을 사용해 생성형 AI 없이도 프로필을 생성할 수 있지만, 유연성이 필요한 경우도 있다. 예를 들어 대화의 일부로 프로필을 제시하거나 서드파티 애플리케이션의 컨텍스트에 포함시켜야 하는 경우가 있다. 이러한 상황에서는 LLM에 보조 데이터 소스를 제공하여 프로필 또는 그 일부를 생성하도록 요청할 수 있다.
다른 한편으로는 보조 데이터 소스의 필요성과 이를 채우는 데 필요한 추출 작업을 생략하는 것이 바람직할 수도 있다. LLM은 다양한 소스에서 1차 데이터를 가져와 단일 단계로 프로필을 사양에 맞게 생성할 수 있다. 예를 들어 공동 작업 관리, 워크스트림 협업 및 인적 자본 관리 시스템 등 세 가지 애플리케이션에서 사용자 프로필을 취해 전문가 프로필을 생성할 수 있다.
- 메타데이터로 검색 촉진
성공적인 검색의 핵심은 양질의 메타데이터, 즉 귀속되는 콘텐츠를 포괄적이고 모호하지 않게 제시하는 키워드에 있다. LLM은 특히 문서나 동영상과 같은 콘텐츠 기반 데이터 소스에 메타데이터를 자동으로 할당하는 오랜 과제에 대한 해결책을 제시한다.
제목, 부제, 첫 문단 및 마지막 문단 등 문서의 주요 부분만 입력하면, 적절하게 설계된 프롬프트가 제목, 작성자 및 고정된 주제 목록에서 파생된 키워드와 같이 문서를 대표하는 구조화된 메타데이터를 생성할 수 있다. 이러한 메타데이터는 콘텐츠 및 데이터 자산, 또는 프로필 자체에 귀속될 수 있다.
생성형 AI가 콘텐츠로부터 데이터를 자동으로 추출해 새로운 콘텐츠를 생성하는 능력은 누가 누구인지, 누가 무엇을 알고 있는지, 그리고 누가 누구를 알고 있는지를 나열하는 확장 가능한 전문가 디렉토리로서 그동안 지식 관리에서 문제가 됐던 부분을 해결할 것이다. 애플리케이션 리더는 기업의 애플리케이션 포트폴리오를 검토해 이미 사용 가능한 솔루션이 있는지 확인하거나, 적절한 플랫폼 위에 기능 및 애플리케이션을 추가한 자체 솔루션 개발을 고려해야 한다.
제언
지식의 캡처, 공유 및 검색은 지식 관리의 핵심이자 직원 효율성에 필수적이지만, 제대로 수행되는 경우는 드물다. 이때 생성형 AI는 지식을 캡처하는 데 필요한 노력을 획기적으로 줄이고, 직원들이 정보를 검색하고 이해하는 데 소비하는 시간을 줄여 생산성을 향상시키며, 직원들이 지식 공유와 협업을 위해 서로를 찾고 연결할 수 있는 전문 지식 디렉토리를 구축함으로써 지식 관리 기술을 지원한다. 애플리케이션 리더는 생성형 AI의 이러한 기능을 활용해 주요 지식 관리 활동을 실질적으로 자동화해야 한다.


