데이터 거버넌스에서 AI 거버넌스로 고도화…데이터 카탈로그 중요성 부각

[컴퓨터월드] 데이터를 효과적으로 수집·저장·통합·관리·활용하는 것은 모든 기업의 최우선 과제다. 이 중 어느 것 하나 중요하지 않은 영역이 없다. 최근에는 생성형 인공지능(AI) 시대가 도래함에 따라 AI를 이용해 데이터 활용을 극대화하는 데 기업들이 많은 역량과 자원을 할애하고 있다. 기존 데이터 전략으로는 생성형 AI를 온전히 담을 수 없다는 점 때문에 기업들의 고심은 깊어지고 있다. 생성형 AI 시대에 맞아 기업들이 제시하는 차세대 표준과 AI를 위한 데이터 전략을 조명해 본다.


생성형 AI가 초래한 데이터 트렌드 변화

생성형 AI가 산업 곳곳에 스며들어 비즈니스 혁신을 끌어내고 있다. ‘생성형’이라는 수식어가 붙었지만, 결국 데이터를 기반으로 학습된 생성에 특화된 AI 모델일 뿐이다. 생성형 AI는 학습 재료인 데이터에 따라 결과물의 품질이 결정된다는 의미로 데이터와의 밀접한 연관을 갖고 있다고 할 수 있다.

생성형 AI 등장 전과 후를 기준으로 △소스 데이터 다양성 및 규모 △데이터 기술 및 인프라 △데이터 컴플라이언스 △데이터 거버넌스 등 크게 4가지 측면에서 데이터 트렌드는 크게 변화했다.

소스 데이터 다양성 및 규모 면에서 기존에는 비구조화(비정형, 혹은 반정형)된 데이터를 사용하긴 했지만, 주로 구조화(정형)된 데이터를 중심으로 그리고 상대적으로 데이터의 양이 적은 상태로 분석 작업이 이뤄졌다.

하지만 생성형 AI가 등장한 이후에는 대형언어모델(LLM)을 학습하기 위해 비구조화된 데이터의 활용도가 증가했으며, 데이터의 양도 방대해졌다. 특히 AI 모델의 성능을 향상하기 위해 RAG(Retrieval Augmented Generation)라 불리는 데이터 최신화를 가능하게 하는 기법도 요구되고 있다.

데이터 기술 및 인프라 면에서 기존에는 일부 클라우드 스토리지 및 분산 저장 시스템이 쓰이긴 했으나 대다수가 로컬 서버나 온프레미스, 데이터센터를 주로 사용했다. 또 제한된 고성능 컴퓨팅 자원을 이용했으며, CPU 기반 분석이 진행됐다. 데이터 처리는 주로 배치(Batch) 처리 방식이었고, 실시간 데이터 처리는 제한적이었다. 또 주로 SQL 기반의 RDBMS(관계형데이터베이스관리시스템)가 사용됐다.

생성형 AI 등장 이후에는 클라우드 스토리지와 분산 저장 시스템이 필수가 됐고, 고성능 컴퓨팅(HPC)이나 GPU 클러스터의 사용도 일반화됐다. 데이터 스트리밍 분석도 거의 실시간으로 이루어졌고, 비정형 데이터를 관리하기 위해 NoSQL DB나 LLM 기반 생성형 AI를 위한 벡터(Vector) DB, 그래프 DB가 활성화되기 시작했다.

데이터 컴플라이언스 면에서는 ‘데이터 프라이버시’와 ‘제로 트러스트’, ‘책임감있는 AI’ 등 3가지 키워드가 떠올랐다. 생성형 AI 등장 이전에는 데이터 프라이버시에 대한 중요성이 막 인식되기 시작하던 시기였다. 보호조치는 제한적이었고, 기본적인 방화벽, 백신 등의 보안조치들만 이루어졌다.

그러나 생성형 AI 등장 이후에는 데이터 프라이버시 보호의 중요성이 널리 확산되면서 데이터 익명화 및 암호화 기술이 널리 쓰이기 시작했다. 또한 종합적인 데이터 보안 전략이 필요해졌고, 침입 탐지 시스템, 접근 제어, 보안 모니터링 등 보안 조치도 강화됐다. 특히 데이터 윤리 기준과 가이드라인이 등장했고 개인정보 보호와 데이터 사용 투명성이 부각됐다.

생성형 AI는 데이터 거버넌스 트렌드에도 많은 변화를 가져왔다. 기존에는 파편화된 데이터 거버넌스 체계가 주류였다. 일부 데이터 중심의 제한적인 데이터 접근/활용 체계가 대다수였고 IT, 데이터 관리자 중심의 기술적인 데이터 관리를 위한 IT 메타데이터 관리가 이뤄졌다. 또한 중앙의 IT 부서 또는 데이터 관리 부서를 중심으로 중앙화된 데이터 거버넌스 체계가 정립됐으며, 시스템 관리나 컴플라이언스에 목적을 둔 수동적이고 방어적인 데이터 거버넌스 체계를 선호했다.

하지만 생성형 AI가 등장하면서 데이터 주기 전반에 걸친 데이터 통합 가시성(Data observability)이 강화됐다. 특히 다양한 데이터 원천과 관계없이 데이터 접근을 일원화해 제공할 수 있는 데이터 패브릭 아키텍처(Data Fabric Architecture), 각 도메인 데이터 생산자가 직접 데이터를 수집-저장-분석-제품화하고 이를 제공할 수 있는 일련의 데이터 계약(Data Contract)을 제공할 수 있는 데이터 메시 아키텍처(Data Mesh Architecture)가 등장했다.

생성형 AI 등장으로 비정형, 반정형 데이터의 양과 활용 빈도가 늘어났고, 이를 뒷받침할 수 있는 클라우드/분산 스토리지, DB 등이 사용되기 시작했으며 책임감 있는 AI를 위해 데이터 프라이버시와 윤리 기준이 마련된 것이다. 또한 데이터 거버넌스는 사용자 접근성과 가시성과 능동성을 향상하는 방향으로 고도화됐다.

데이터 트렌드의 변화 (출처: 지티원)


데이터 패브릭과 데이터 메시 ‘주목’

그렇다면 생성형 AI 시대에 맞는 데이터 전략을 수립해야 할 때 중요한 것은 무엇일까. 바로 생성형 AI, 혹은 데이터 사용자가 데이터에 쉽게 접근하도록 만들어주는 것이다. 이러한 관점에서 최근 데이터 접근성을 확대해 데이터 소비자(AI, 혹은 비전문가) 저변을 확대할 수 있는 아키텍처인 ‘데이터 패브릭’과 ‘데이터 메시’가 많은 주목을 받고 있다.

데이터 패브릭은 여러 운영계, 분석계 시스템을 비롯해 원천 데이터가 유기적으로 연결돼 하나의 덩어리로 조직돼 있는 섬유(Fabric)처럼 촘촘히 연결된 아키텍처다. 기업은 데이터를 조직적으로 연결하고 통합해 관리함으로써 다양한 비즈니스 요구사항에 대응할 수 있는 유연하고 확장 가능한 체계를 구현할 수 있게 된다. 데이터 패브릭은 데이터를 연결해 가치를 만들겠다는 개념이지, 특정 기술을 지칭하는 것은 아니다. 데이터의 수집·저장·통합·분석 등에 요구되는 모든 기술이 데이터 패브릭을 구성하는 인자가 된다.

데이터 메시는 기업 내에서 특정 데이터를 생산하는 조직이 데이터에 대한 소유권을 갖고 관리하는 전략을 의미한다. 기존 데이터 웨어하우스(DW)나 데이터 레이크는 전사 데이터를 중앙집중화된 하나의 시스템으로 통합하는 데에 초점을 맞췄지만, 데이터 메시는 ‘단일화된 원칙’ 아래 도메인 별로 데이터에 대한 소유와 관리를 나눠 맡기는 점이 특징이다.

데이터스트림즈 천승태 연구소장은 “영업팀의 데이터는 영업팀이, 인사팀의 데이터는 인사팀이 관리하게 되니 각자의 도메인 지식을 살린 데이터 관리 전략을 수립할 수 있다. 해당 도메인에서만 사용하는 특정 솔루션이나 요구사항을 반영해 효율적인 아키텍처를 구현하거나 변경이 필요한 경우 상대적으로 유연하게 대응할 수 있고, 중앙화된 통합 데이터 플랫폼을 통하지 않고도 조직 간의 데이터 연결과 통합이 가능해 데이터의 실시간성을 확보하면서도 병목현상을 방지하게 된다”고 설명했다.

이 두 가지 아키텍처의 핵심은 ‘데이터 소비자의 활용’이다. 생성형 AI가 초래한 AI 민주화(AI Democratization)로 누구나 손쉽게 데이터에 접근하고 활용할 수 있다는 것이다. 달리 말하면 IT 메타보다는 비즈니스 메타로 데이터 접근에 대한 초점이 변화해야 한다는 것이다. IT 메타는 개발자, 데이터 관리자 등 데이터에 대한 전문성을 갖춘 인력이 특정 데이터에 대한 정보를 찾을 때 이용하는 메타 정보로 데이터의 구조, 특성, 형식, 출처 등을 기술한 데이터가 여기에 해당된다.

이와 반대로 비즈니스 메타 정보는 기업의 비즈니스 모델, 전략, 프로세스, 성과 등을 기술한 데이터로 주로 기업 의사결정과 경영활동에 활용되는 데이터다. 누구나 쉽게 접근해 찾아볼 수 있을 만큼 고도의 전문성을 요구하지 않는다.

AI의 데이터 품질 요소

이와 같이 생성형 AI 출현으로 점차 비즈니스 메타 정보를 찾는 데이터 소비자가 크게 늘었고, 이들이 원하는 데이터를 쉽게 찾아올 수 있도록 데이터 접근성을 갖춘 플랫폼의 중요성이 강조되고 있다.

가령, 기업에서 운영하는 생성형 AI에 자연어로 2023~2024년 매출데이터를 요청할 때 질문자는 관련 데이터가 물리적으로 어떤 DB에 어떤 테이블에, 어떤 컬럼에 존재하는지 모른다. 하지만 데이터 패브릭이나 데이터 메시 아키텍처와 같이 가상화로 모든 데이터 저장소가 연결돼있다면 생성형 AI는 손쉽게 매출 데이터에 접근할 수 있게 된다.

쉽게 말해 AI가 데이터를 잘 사용하기 위해서는 보유한 모든 데이터를 ‘직물(데이터 패브릭)’과 ‘망사(데이터 메시)’를 만들어주는 가상화 레이어(Virtual Layer)로 덮고 필요할 때마다 날줄과 씨줄을 타고 필요한 데이터에 접근할 수 있는 환경이 마련돼야 한다는 것이다.

엔코아 김범 부사장은 “데이터 전략을 수립할 때는 데이터 소비자가 생성형 AI가 될 수 있다는 점도 인지해야 한다. 비즈니스 메타 정보를 찾는 사람이 직접 DB에 SQL을 보내 찾을 수도 있지만 비전문적인 사람 대부분은 생성형 AI의 인터페이스를 통해 자연어로 비즈니스 메타 정보를 요청할 것이다. 데이터 소비의 끝단은 사람이지만, 데이터 소비를 위한 행위는 결국 생성형 AI가 할 것이다. 생성형 AI가 데이터에 접근하고 찾아올 수 있는 체계가 선행돼야 하는 이유다”라고 설명했다.


‘데이터 카탈로그’로 데이터 이해와 식별 체계 마련

AI가 데이터에 쉽게 접근할 수 있는 환경이 마련됐다는 것은 AI가 필요로 하는 데이터가 물리적으로 어떤 저장소에 있고, 또 해당 데이터를 식별하고 이해할 수 있다는 것을 의미한다. 이러한 상황에서 최근 AI 기반 데이터 전략의 핵심으로 떠오르는 기술이 있다. 바로 데이터 카탈로그(Data Catalog)다.

데이터 카탈로그는 데이터 관리에 핵심적인 역할을 하는 도구였다. 데이터 카탈로그는 전사 데이터 자산에 대한 수집-검색-공유-활용을 위한 데이터 접근성과 가시성을 제공하는 백과사전으로 정의할 수 있다. 특정 데이터가 어디에 있는지 어느 DB, 어느 테이블에 있는지 표기된 일종의 안내서인 것이다.

데이터 패브릭과 데이터 메시 아키텍처에서의 데이터 카탈로그 역할

데이터 패브릭, 데이터 메시 등 생성형 AI가 데이터에 쉽게 접근할 수 있는 환경이 마련됐다는 것은 데이터 카탈로그가 구현돼있다는 것을 의미한다. 생성형 AI가 데이터를 식별하고 이해하기 위해선 다양한 원천 데이터로부터 메타데이터 정보를 수집하고, 검색하며, 접근 권한에 따라 데이터의 정보를 통합적으로 확인(기본정보, 데이터 계보, 데이터 품질 정보, 데이터 프로파일링)하고, 필요한 데이터를 요청하고, 이를 빠르게 제공해 줄 수 있는 체계인 데이터 카탈로그가 필수적이라는 것이다.

데이터 카탈로그는 말 그대로 데이터에 대한 백과사전이다. 달리 말하면 생성형 AI가 어떠한 데이터인지 명확하게 이해할 수 있도록 비즈니스 용어, 데이터 소유자, 민감 정보 여부, 데이터 탐색 및 필터링, 접근 권한 관리, 마스킹/암호화 등 데이터 접근에 대한 정보부터 업데이트 주기 및 시점, 업데이트 건수, 레코드 값 정확성 및 이상치 등 데이터 품질, 레코드 크기와 키(Key) 정의, 레코드 간 관계 등 데이터 구조 정의, 데이터 흐름, 변화(산식의 수정) 등 데이터 가시성에 대한 정보까지 다양한 기술 요소들이 담겨있다.

지티원 김찬수 상무는 “데이터 패브릭 관점에서 다양한 형태의 분산된 데이터 원천으로부터 단일한 접근이 가능한 체계가 요구된다. 이를 위해선 데이터 카탈로그가 꼭 필요하다. 데이터 카탈로그는 데이터 형태나 위치를 빠르게 검색해 ‘여기에 있는 이 데이터가 당신이 찾는 데이터다’라고 알려준다. 데이터 패브릭이라는 아키텍처가 실체화되기 위해서는 데이터 카탈로그 구축이 선행돼야 한다”면서 “데이터 카탈로그는 데이터 패브릭 체계에서 다양한 데이터 소스에 대한 데이터 가상화를 가능하게 하고, 데이터 메시 체계에서 각 도메인에서 생산한 데이터 제품(Data Product)에 대한 데이터 사양서(Data Contract)를 생성·제공하는 역할을 수행하는 핵심 기술요소다”라고 설명했다.

이어 김찬수 상무는 “데이터 카탈로그에는 개별 DB와 연결된 커넥터, 어댑터가 있는데, 각 DB 메타 정보에 대한 저장소를 카탈로그로 이해하면 된다. 최근에는 비즈니스 메타정보까지 카탈로그에 포함되며, 데이터 품질, 데이터 프로파일링 정보, 데이터 원천 소스 테이블, 변형과정 등도 종합적으로 담긴다”고 덧붙였다.

데이터 카탈로그는 RAG를 위해서도 핵심적인 역할을 수행한다. 일반적으로 기업이 생성형 AI를 도입하는 과정은 파운데이션 모델(FM)을 파인튜닝하고(시점 1), 데이터셋을 넣어 학습(시점 2)하는 과정을 통해 구축한다.

하지만 이미 특정 시점 이후부터는 데이터가 최신화되지 않아 정확도와 신뢰도가 떨어진다. 이런 문제를 해결하기 위해 외부의 신뢰할 수 있는 데이터를 참조하는 기술인 RAG가 쓰이고 있다. RAG가 외부 지식 베이스를 가져오면, 데이터 카탈로그에 관련 데이터를 저장한다. 쉽게 말하면 생성형 AI가 특정 사용자로부터 질의를 받았는데 내부에 데이터가 존재하지 않는다면, RAG로 외부의 지식 베이스의 정보를 끌어오고, 참조한 정보를 데이터 카탈로그를 통해 비슷한 데이터가 존재하는 저장소에 저장함으로써 데이터 최신화를 유지하게 된다.


데이터 거버넌스 넘어 ‘AI 거버넌스’로

생성형 AI가 데이터에 대한 접근성이 담보된 환경에서 원하는 데이터를 이해하고 식별할 수 있는 환경까지 마련됐다면, 다음 단계는 무엇일까. 바로 데이터 거버넌스 체계를 잘 정비하는 것이다. 통상 데이터 거버넌스(Data Governance)는 조직 내에서 데이터의 품질, 보안, 접근성, 활용성 등을 관리하고, 데이터의 생명주기를 관리하는 체계를 의미한다. 데이터의 가치를 극대화하고, 데이터 관련 위험을 최소화하는 데 핵심적인 역할을 한다.

일반적으로 데;이터 관리는 △데이터의 수집, 저장, 처리, 분석, 활용 등을 위한 체계를 수립하는 ‘데이터 관리 체계 수립’ 단계 △데이터의 형식, 용어, 규칙 등을 표준화해 데이터의 일관성과 통일성을 유지하도록 ‘데이터 표준화’ 단계 △데이터의 유출, 변조, 훼손 등을 방지하고 보안 대책을 마련할 수 있도록 ‘데이터 보안 강화’ 단계 △데이터를 활용해 새로운 가치를 창출하고, 비즈니스 성과를 향상하도록 ‘데이터 활용 촉진’ 단계 △데이터의 정확성, 일관성, 유효성 등을 확보하여 데이터의 신뢰성을 위해 ‘데이터 품질 향상’ 단계 △데이터의 생성, 변경, 삭제 등을 관리하여 데이터의 보존과 폐기를 위해 ‘데이터 생명주기 관리’ 단계 등으로 구성된다.

지티원 김찬수 상무는 “IT 거버넌스는 업무 애플리케이션 개발·운영에 초점이 맞춰졌으며 정보공학방법론에 따라 애플리케이션을 분석, 설계, 개발, 단위·통합 테스트, 배포 등 절차를 명확하게 따르고 있다. 그러다 보니 개발 기준, 과정, 산출물이 모두 명확하다. 데이터 품질, 데이터 계보 관리, 메타정보 관리 등 데이터 거버넌스 체계도 마찬가지다”고 말했다.

이어 김 상무는 “하지만 최근에는 생성형 AI라는 기존 IT 거버넌스와 성격이 다른 신기술이 애플리케이션 개발에 적용되고 있다. 이 생성형 AI의 모든 과정은 기존 IT와는 달리 모든 것이 불명확하다. 어떠한 프로세스를 거쳐 모델이 개발됐는지도 모른다. 실제로 최종 코드, 중간 보고, 종료 보고 등 3가지 정보만 나온다. AI 모델이 어느 원천 데이터에서 데이터를 수집했고, 어떤 과정을 거쳐 정제했으며, 학습 데이터셋을 구성할 때 데이터 편향성을 제거하기 위해 어떠한 노력을 했는지 등 과정상 관리 요소가 많은데도 불구하고 모든 것이 불명확했다. 분석가 개개인 역량에 따라 클렌징 기준도 다르고, 과정 관리도 안 되기 때문에 신뢰할 수 있는 AI 모델인지에 대한 이슈가 존재한다”면서 “기존 데이터 거버넌스와는 명확하게 구분할 수 있는 AI 거버넌스가 필요한 시점”이라고 역설했다.

AI 도입 활성화에 따른 데이터 관리요소 확장 (출처: 지티원)

실제로 최근에는 생성형 AI로 인해 데이터 거버넌스가 AI 거버넌스로 확장되는 양상을 보이고 있다. 여기에는 AI 도입이 활성화되면서 관리해야 하는 데이터 자산의 영역이 늘어나고 있다는 점이 주효한 동인으로 작용한다.

업계에 따르면, AI 거버넌스에는 △기존 계보 관리를 확장해 모델 변수 데이터 관리를 위한 기능 △기존 IT 메타, 비즈 메타, 운영 메타 등에서 확장해 모델의 메타데이터를 관리하기 위한 기능 △데이터 값 품질(정확성)에서 확장해 모델 데이터 특성 분포를 관리할 수 있는 드리프르 관리 기능 △데이터 품질 진단 및 업무 시스템 개발 운영 프로세스 관리에서 더 나아가 모델 기획-개발-운영 프로세스-체크리스트 관리 기능 등 다양한 기술 요소가 요구된다.

이 외에도 정보계(EDW, BI)나 데이터 파이프라인(데이터, 코드, 서비스)에서 데이터 레이크나 AI 플랫폼 데이터 파이프라인까지 가시성을 확장하도록 노력해야 하며, 데이터 품질에는 학습데이터 셋의 편향성 품질도 관리할 수 있도록 고도화돼야 한다.


AI 거버넌스에서 고려해야 할 사항 두가지

이 같은 AI 거버넌스는 크게 △모델 라이프사이클 관리 및 재사용성 강화 △책임성있는 AI 개발 및 운영체계 확보 등 2가지 측면을 고려해야 한다. 현재 AI 개발 과정에서는 표준화된 수행 절차, 개발 기준, 완료 기준, 운영 기준없이 분석가 개인의 역량에 의존하는 경향이 강하다. 때문에 분석가 역량에 따라 모델 품질 편차가 심하다. 이를 해소하기 위해 AI 모델 기획-개발-운영 전(全)과정에 대한 표준화된 방법론과 프로세스 정립 및 시스템화된 관리 체계가 마련돼야 한다.

다음은 데이터 준비-개발-운영 등 단계 별 모델 메타 정보 관리 체계가 구현돼야 한다. 분석데이터 준비 후 모델 학습 및 평가, 모델 배포 및 운영의 절차에서 발생하는 모델 메타정보 관리 체계를 마련해야 한다. 아울러 데이터 준비 단계에서 피처 데이터(Feature Data)에 대한 중앙집중화, 표준화된 메타정보 및 데이터셋을 관리할 수 있는 체계를 만들고 재사용/공유가 가능한 환경을 만들어야 한다.

또한 학습/운영 단계의 모델 버전별 메타정보(알고리즘, 튜닝내역, 사용한 피처데이터, 성능평가 지표 등)를 관리해 모델을 재현할 수 있어야 하고 모델 참조 및 재사용 체계도 구비해야 한다. 마지막은 운영 단계의 모델 성능, 피처 데이터 특성 변화를 감지하기 위한 성능 지표관리와 모니터링을 통한 모델 성능 하락에 대한 빠른 재강화 및 재학습 의사결정 체계도 병행돼야 한다.

책임성 있는 AI 개발 및 운영체계 확보도 AI 거버넌스를 구성하는 핵심 축이다. AI 모델과 데이터, 프로세스에 대한 투명하고 신뢰할 수 있는 관리 체계를 통해 AI 모델의 책임성을 확보해야 한다. 이를 위해 국내·외 정부 기관의 책임성 있는 AI 관련 가이드라인 및 법률을 모델 기획, 개발, 운영 단계에 반영하고 점검, 보고할 수 있는 시스템화된 체계가 마련돼야 한다.

현재 국내에서는 금융위원회, 과학기술정보통신부, 개인정보보호위원회의 ‘AI 가이드라인(체크리스트)’가 존재하고 해외에서는 EU의 AI 액트(AI Act), 미국의 ‘AI 리스크 관리 프레임워크’ 등의 관련 가이드 및 법률이 존재한다. 이를 참조해 AI 개발 및 운영체계에 접목하고, 책임감 있는 AI 모델을 운영해야 한다는 것이다.

 

기업별 생성형 AI 특화 데이터 전략

 “데이터 거버넌스 역량에 AI 특화 역량 결합해 AI 거버넌스 지원”

2008년 9월 설립된 지티원은 데이터 거버넌스 및 컴플라이언스 솔루션 전문 개발 공급기업이다. 16년에 달하는 업력을 자랑하는 만큼 데이터와 애플리케이션 거버넌스, 금융 컴플라이언스 등의 영역에서 다양한 솔루션을 갖추고 있다. 지티원은 데이터 거버넌스 솔루션을 강화하는 것에 더해 AI 거버넌스 솔루션을 신규로 출시하고자 R&D에 총력을 기울이고 있다.

지티원은 데이터 자산 가시성을 확보하고 AI 기반 데이터 거버넌스 지능화/자동화를 위한 데이터 카탈로그 솔루션인 ‘메타 카탈로그(Meta Catalog)’를 중심으로 비즈니스를 전개하고 있다. 메타 카탈로그는 IT 메타뿐만 아니라 비즈니스 메타 정보를 수집·관리하고, 사용자가 업무용어로 데이터를 빠르고 쉽게 검색하고 사용자 권한에 맞게 접근할 수 있는 환경을 제공한다.

 지티원의 메타 카탈로그 (출처: 지티원)
지티원의 메타 카탈로그 (출처: 지티원)

아울러 데이터에 대한 프로파일링, 품질, 흐름 정보도 바로 확인할 수 있도록 통합 거버넌스 환경을 제공한다. 또 지티원의 데이터 품질관리 솔루션인 ‘DQ마이너(DQMiner)’, ‘데이터호크(DataHawk)’, ‘체인지마이너(Changeminer)’ 등 다양한 솔루션과 연계해 전문적이고 상세한 모니터링과 분석도 지원한다. AI 기술을 활용해 메타데이터 수집 시 이를 자동으로 분류하고, 메타데이터 기반 데이터 사양서를 자동으로 생성하는 기능과 모든 데이터 접근에 대한 권한관리가 한 곳에서 이뤄질 수 있도록 IAM 환경을 제공한다.

지티원은 책임감 있는 AI를 위한 AI 거버넌스 솔루션을 올해 출시할 예정이다. 올 하반기에‘피처 스토어(Feature Store)’와 ‘AI 워크벤치(AI Workbench)’를 출시할 예정이며, 2025년에는 ‘모델 메타 스토어(Model Meta Store)’와 ‘모델 드리프트 모니터링(Model Drift Monitoring)’ 솔루션도 내놓을 계획이다.

 지티원의 데이터 & AI 통합 거버넌스 개념 (출처: 지티원)
지티원의 데이터 & AI 통합 거버넌스 개념 (출처: 지티원)

지티원 김찬수 상무는 “기존의 데이터 거버넌스에서 확장해 데이터와 AI를 유기적으로 연계해 통합적으로 거버넌스 할 수 있는 데이터 & AI 통합 거버넌스 솔루션을 고객들에게 제공하고 밀착 지원할 예정”이라고 강조했다.

 

데이터스트림즈 ​​​
데이터스트림즈 ​​​

“데이터 패브릭과 카탈로그 역량으로 AI-데이터 전략 지원”

데이터스트림즈는 빅데이터 구축·관리·분석 전문기업으로, 데이터 통합과 품질관리·메타데이터·표준화 등 데이터 거버넌스 분야와 인공지능(AI/ML), 데이터 패브릭 등 영역 솔루션과 컨설팅 서비스를 중심으로 비즈니스를 영위하고 있다. 데이터스트림즈는 AI 시대에 맞는 데이터 전략을 수립·지원하고자 자사가 보유한 데이터 거버넌스 역량이 담긴 솔루션과 데이터 패브릭 플랫폼을 전면에 내세우고 있다.

 데이터스트림즈 테라원 플랫폼 내 상세 기능 (출처: 데이터스트림즈)
데이터스트림즈 테라원 플랫폼 내 상세 기능 (출처: 데이터스트림즈)

데이터스트림즈 천승태 연구소장은 “AI는 점차 생성형 AI, 보다 인간과 비슷해지는 수준으로 진화할 것으로 예상된다. 데이터 관점에서 본다면 AI가 데이터에 쉽게 접근할 수 있는 환경이 필수적이라는 의미다. 그러나 데이터를 물리적으로 통합하기에는 너무 많은 역량과 공수가 필요하다”면서 “우리는 가상화된 레이어를 통해 데이터를 가상으로 통합할 수 있도록 데이터 패브릭 아키텍처와 이를 구현할 수 있는 제품을 공급하고 있다”고 강조했다.

이어 천 소장은 “AI시대에는 단순히 데이터의 형태뿐만 아니라 데이터의 의미 정보를 포함해야 한다. 이를 위해 데이터 식별 정보를 카탈로그화한 제품도 결합해 데이터 패브릭, 데이터 카탈로그 등을 고객의 데이터 환경에 맞게 제공하고 있다. 이 뿐만 아니라 데이터 거버넌스를 완벽하게 수립할 수 있는 데이터 표준, 데이터 흐름, 애플리케이션 영향도, 비즈니스 메타데이터 등 개별 솔루션 등을 모두 통합한 플랫폼도 제안하고 있다”고 덧붙였다.

데이터스트림즈가 비즈니스 전면에 배치한 솔루션은 ‘테라원(TeraONE)’이라는 플랫폼이다. 테라원 플랫폼에는 △초고속 데이터 추출 및 소형 엔진인 ‘FACT/테라솔트(FACT/TeraSort)’ △데이터 통합(ETL) 솔루션 ‘테라스트림(TeraStream)’ △실시간 IoT 데이터 처리 솔루션 ‘테라스트림 BASS(TeraStream BASS)’ △실시간 변경 데이터 적재(CDC) 솔루션 ‘델타 스트림(DeltaStream)’ △개인화 기반 인공지능 분석환경 ‘테라원 IDEA(TeraONE IDEA)’ △데이터 가상화 솔루션 ‘테라원 슈퍼쿼리(TeraONE SuperQuery)’ 등 데이터 가상화를 구성하는 솔루션이 포함돼 있다.

 데이터스트림즈의 데이터 카탈로그 제품 이루다 화면 (출처: 데이터스트림즈)
데이터스트림즈의 데이터 카탈로그 제품 이루다 화면 (출처: 데이터스트림즈)

이와 함께 데이터 거버넌스를 위해 △AI 기반 데이터 카탈로그 솔루션 ‘이루다 내비게이터(IRUDA Navigator)’ △데이터 표준 및 메타데이터 관리인 ‘메타스트림(MetaStream)’ △비즈니스 메타데이터 관리 솔루션 ‘메타스트림 포 비즈데이터(MetaStream for BizData)’ △데이터 품질관리 솔루션 ‘퀄리티스트림(QualityStream)’ △데이터 흐름 관리 솔루션 ‘Q-트랙(Q-Track)’ △마스터데이터(기준정보) 관리 솔루션 ‘마스터스트림(MaterStream)’ 등을 제공하고 있다.

데이터스트림즈 천승태 연구소장은 “데이터스트림즈는 기업에서 데이터 거버넌스가 데이터 패브릭에 맞춰 구축되고 정립되도록 이를 AI를 솔루션에 통합하고자 한다. 비정형 데이터로부터 정보를 추출해 활용할 수 있는 체계를 AI로 자동화 할 수 있도록 하는 LLM을 개발 중이다. 또한 데이터 표준화 프로세스를 AI로 자동화할 수 있는 연구도 진행 중이다”고 말했다.

 

“AI For 데이터 전략, 데이터 웨어 활용해 밀착 지원할 것”

엔코아는 데이터 거버넌스 관련 기술을 보유한 국내 대표 기업 중 한 곳이다. 데이터 거버넌스를 구성하는 △데이터 모델링 툴 ‘데이터웨어 DA’ △메타데이터 관리시스템 ‘데이터웨어 메타’ △영향도 분석 시스템 ‘데이터웨어 AP’ △데이터품질 관리시스템 ‘데이터웨어 DQ’ △모니터링 및 성능 최적화 ‘데이터웨어 SQL’ △데이터흐름관리 시스템 ‘데이터웨어 DF’ △단일 및 통합 리포지토리 ‘데이터웨어 ETT’ △데이터 가상화 솔루션 ‘데이터웨어 DV’ △데이터 포털 솔루션 ‘데이터웨어 DP’ 등의 솔루션을 공급하고 있다.

 엔코아의 데이터웨어 플랫폼 내 거버넌스 제품군 (출처: 엔코아)
엔코아의 데이터웨어 플랫폼 내 거버넌스 제품군 (출처: 엔코아)

엔코아는 이들 솔루션을 개발하며 확보한 데이터 가상화 기술, 거버넌스 기술, 아키텍처 역량, 데이터 레이크 기술 등을 생성형 AI와 결합해 고객들이 AI를 잘 활용할 수 있는 데이터 기반 환경을 마련하는 데 집중하고 있다. 특히 다양한 데이터 거버넌스 솔루션을 하나의 올인원 플랫폼으로 통합한 데이터 통합 관리 제품인 ‘데이터웨어’를 전면에 내세우고 있다.

데이터웨어는 국제 웹 표준을 준수한 데이터 통합 관리 제품이다. 전자정부 프레임워크와 호환되며 온프레미스나 클라우드 환경에 최적화될 수 있도록 서비스 모듈로 구성돼있다. OS나 브라우저에 종속되지 않고 서비스가 제공된다.

엔코아 김범 부사장은 “데이터웨어는 통합 리포지토리 기반 데이터 표준, 모델, 품질, 영향도, 흐름, 운영 관리 솔루션이 모두 담긴 플랫폼이다. 데이터 관리 솔루션 간의 정보교환이 원활하도록 통합 리포지토리를 기반으로 구성했다. 단일한 데이터 관리 시스템을 통해 데이터 표준, 데이터 모델링, 데이터 성능, SW 영향도, 데이터 품질, 데이터 이행 및 흐름 관리, 메타 데이터 관리, 컴플라이언스 대응을 위한 체계적인 통합 정책 수립 등이 가능한 올인원 제품”이라고 설명했다.

이어 김 부사장은 “생성형 AI는 기반 인프라가 클라우드 환경일 수도 있고, 온프레미스 환경일 수도 있다. 또 데이터 저장소가 OLTP일 수 있고, 데이터 패브릭, 데이터 메시, 데이터 레이크, 데이터 웨어하우스 등 다양하다. 가장 중요한 것은 생성형 AI가 데이터를 찾아오기 위해 반드시 알아야 하는 식별 정보를 한 눈에 담은 데이터 카탈로그”라면서 “데이터 카탈로그 솔루션도 중요하지만, 생성형 AI가 데이터를 잘 조달하며 운영되는 메커니즘을 구성하는 것도 중요하다. 이를 위해 데이터 전문 역량이 있는 기업의 도움을 받아 AI를 위한 데이터 전략을 마련해야 한다”고 말했다.

 데이터웨어 DV 제품을 활용한 논리적 데이터 레이크 구축 사례 (출처: 엔코아)
데이터웨어 DV 제품을 활용한 논리적 데이터 레이크 구축 사례 (출처: 엔코아)

향후 엔코아는 고객이 AI를 보다 잘 활용할 수 있도록 데이터웨어를 활용해 생성형 AI가 데이터를 잘 가져다 사용할 수 있는 체계를 지원하는 서비스를 개발 중이다. 올 하반기 관련 서비스 윤곽이 나올 것으로 기대된다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지