[지상중계] “생성형 AI와 빅데이터로 혁신의 활로를 찾아라”

본지, 지난달 7일 ‘제20회 2023 데이터 컨퍼런스’ 개최

[컴퓨터월드] 전 산업계의 핵심 동력이 데이터를 중심으로 재편되고 있다. 특히 챗GPT(ChatGPT)의 등장 이후, 데이터 학습의 결정체인 생성형 AI가 전 세계의 뜨거운 감자로 부상했다. 수많은 데이터를 학습하고 이를 토대로 결과물을 생성하는 생성형 AI를 구현하기 위해 데이터의 수집부터 저장, 학습, 거버넌스 정립 등 제반을 다지는 작업이 더욱 중요한 과제로 떠올랐다.

본지(컴퓨터월드/아이티데일리)는 지난달 7일 서울 양재동 엘타워에서 각계 데이터 전문가 및 국내 대표 기업들과 함께 생성형 AI를 둘러싼 주요 이슈에 관한 해답과 데이터 활용 전략을 제시해 보고자 ‘생성형 AI & 빅데이터’를 주제로 ‘제20회 2023 데이터 컨퍼런스’를 개최했다. 데이터 인사이트와 핵심 전략이 공유된 이번 컨퍼런스 내용을 정리했다.

본지(컴퓨터월드/아이티데일리)가 지난달 7일 서울 양재동 엘타워에서 ‘생성형 AI & 빅데이터’를 주제로 ‘제20회 2023 데이터 컨퍼런스’를 개최했다.

행사는 한국데이터마이닝학회(KDMS) 김현중 회장의 축사로 시작됐다. 김현중 회장은 “챗GPT를 중심으로 생성형 AI가 뜨거운 화두로 떠올랐다. AI 업계를 비롯해 클라우드, 데이터 업계에서도 생성형 AI로 새로운 비즈니스 활로를 찾고자 노력 중이다. 이에 맞춰 정부에서도 생성형 AI를 미래의 핵심 기술 기반으로 인식하고 과감한 투자를 아끼지 않고 있다”고 최근 업계 동향을 소개했다.

이어 김 회장은 “데이터 산업은 학계와 산업계가 함께 발전해 가야 한다. 변화돼 가는 추세에 맞춰 학계에서는 다양한 분석 방법론을, 산업계는 새로운 데이터 애플리케이션과 플랫폼 개발에 공을 들여야 한다”며 “이번 2023 데이터 컨퍼런스는 학계와 산업계가 함께 데이터와 관련된 아이디어를 공유하고 사례를 발표하는 논의의 장(場)으로 마련됐다. 이번 행사를 통해 생성형 AI를 활용하기 위해 필요한 제반 과정은 물론, 심도 있는 인사이트와 학술 아젠다를 포함한 풍성한 발표를 만나보길 기원한다”고 말하며 제20회 2023 데이터 컨퍼런스의 포문을 열었다.

“생성형 AI와 빅데이터 기반 비즈니스 트랜스포메이션”

2023 데이터 컨퍼런스의 키노트는 ‘생성형 AI와 빅데이터 기반 비즈니스 트랜스포메이션’을 주제로 KT AI/빅데이터사업본부 최준기 상무가 맡았다.

최준기 상무는 “최근 초거대 AI의 시대가 되면서 수많은 데이터를 수용할 수 있는 컴퓨팅 인프라만 있으면 단일한 초거대 AI 모델 하나만으로도 여러 영역 군에 활용할 수 있는 환경이 됐다”면서 “향후 초거대 AI는 기본적으로 로우코드(LowCode) 기반으로 기업의 업무 생산성을 향상하고 고객 경험을 개선해, 비즈니스 모델의 혁신을 일으킬 것이다”라고 말했다.

또한 최준기 상무는 “데이터의 효과적인 활용과 데이터 기반 디지털 전환(DX) 구현을 위해서는 기업들이 데이터의 ‘선순환 사이클’을 반드시 구축해야 한다”고 당부하며, “앞으로는 많은 기업들이 데이터셋을 토대로 경량화된 AI와 거대언어모델(LLM)을 제작하고 서비스하는 방식으로 B2B 시장이 발전할 것이다”라고 전망했다.

마지막으로 최준기 상무는 최근 KT가 출시한 초거대 AI ‘믿음(Mi:dm)’의 기능과 향후 사업계획을 소개하며 발표를 마쳤다.

“생성형 AI와 로우코드를 활용한 데이터 분석 업무 생산성 극대화 전략”

비아이매트릭스 배영근 대표는 ‘생성형 AI와 로우코드를 활용한 데이터 분석 업무 생산성 극대화 전략’을 주제로 발표했다.

비아이매트릭스는 소프트웨어(SW) 로봇을 접목한 로우코드를 기반으로 BI/OLAP, 대시보드 시각화, 리포트, UI/UX, 엑셀 자동화 기능까지 포괄한 종합 데이터 플랫폼 ‘AUD 플랫폼’을 제공하고 있다. AUD 플랫폼은 복잡한 코딩 과정 없이도, 사용자가 손쉽게 DB 데이터를 추출하고 활용할 수 있도록 SW 로봇이 자동으로 쿼리를 구성하고 시각화까지 담당한다.

비아이매트릭스는 자사 플랫폼에 AI를 적극적으로 도입하고 있다. 특히 AI가 자연어 기반으로 데이터를 불러오고 결과를 분석해 주는 ‘지매트릭스(G-MATRIX) 2.0’ 솔루션을 출시한 바 있다. 올해 정식 출시된 지매트릭스 2.0은 자연어 기반 데이터 조회 및 2차 산출 결과를 제공한다. 이어서 내년도에는 분석 알고리즘 연계를 통한 예측 데이터 서비스까지 가능한 ‘지매트릭스 3.0’으로 고도화한다는 방침이다. 이뿐만 아니라, 비아이매트릭스는 데이터 분석에 특화된 LLM 모델 ‘네오GPT(NeoGPT)’를 조만간 출시할 예정이다.

배영근 대표는 “생성형 AI의 등장 이후 기존의 로우코드를 넘어, ‘노코드(NoCode)’로 데이터 활용이 가능할 것이라고 전망한다. 생성형 AI와 로우코드를 함께 활용한다면 시간 절약, 개발 생산성 향상, 비용감소, 운용 효율성 증대 등 기업 및 기관의 업무 생산성을 획기적으로 높일 수 있다”며 “이를 실현하기 위해 비아이매트릭스는 AUD 플랫폼 내의 AI 기반 지매트릭스 2.0 솔루션을 출시했으며, 올해 말 출시할 데이터 분석 특화 LLM 네오GPT를 자체 개발했다”고 밝혔다.

“데이터 컨버전스와 통합 플랫폼”

다음으로 지티원 어호경 전무가 ‘데이터 컨버전스와 통합 플랫폼’을 주제로 발표했다.

지티원은 데이터 거버넌스와 애플리케이션 거버넌스 통합 포털을 구축해 고객들에게 서비스하고 있다. 하나의 단일 데이터 거버넌스 플랫폼 포털을 통해 표준화와 다양한 상호운용성을 보장하며 고객의 전방위적인 데이터 업무 활용을 지원한다.

최근 부상하고 있는 AI와 관련해 지티원은 기존 자사의 데이터 거버넌스에 AI를 접목하는 방안 그리고 AI 모델 자체에 대한 관리·운영을 통합하는 AI 모델 데이터 프로세스 관리 체계에 관한 솔루션을 개발 중이다. 지티원은 AI 변수 데이터 관리, 모델 메타데이터 관리, 모델 성능을 관리 등을 3대 축으로 AI 모델 거버넌스를 구축하고 있다. 기존 자사가 서비스하던 ‘메타마이너(MetaMiner)’를 머신러닝(ML), 자동화까지 접목해 ‘메타카탈로그(MetaCatalog)’로 발전시킨 제품을 비롯한 AI 모델의 데이터 표준·신뢰성·가시성·접근·유통을 통합 관리하는 신규 지능형 플랫폼을 내년 3월 출시할 계획이다.

어호경 전무는 “생성형 AI, 빅데이터 등장 이후에 IT 업계에서는 상당히 많은 ML 모델을 개발하고 있다. 개발도 중요하지만, 개발한 모델에 필요한 데이터 요소들을 어떻게 관리하고, 어떤 방식으로 성능을 측정할지 전반적인 관리 체계를 마련하는 것이 중요해지고 있다”며 “AI, ML 모델을 개발하는 과정에서 수집한 알고리즘, 환경, 지표 등을 모두 하나의 세트로 관리할 필요가 있다. 또한 모델의 성능 관리 측면에서는 상시 모니터링을 할 수 있는 기반을 마련해 객관적인 가이드라인을 통한 의사결정이 가능하도록 거버넌스 차원에서의 접근을 해야 한다”고 제언했다.

“데이터와 AI/ML을 연결하는 디지털 전환 서비스의 핵심 전략, 전사적 의사결정 플랫폼”

코리아엑스퍼트 유인지 대표는 ‘데이터와 AI/ML을 연결하는 디지털 전환 서비스의 핵심 전략, 전사적 의사결정 플랫폼’을 주제로 발표를 진행했다.

코리아엑스퍼트는 파이코(FICO)의 의사결정 플랫폼 ‘DMPs(Decision Management Platform Streaming)’를 중심으로, 데이터부터 인사이트, 액션, 결과물 배포까지 전반적인 고객의 의사결정을 지원하는 기업이다. DMPs는 △다양한 데이터 소스의 통합 △의사결정 위젯 지원 △디지털 생태계 전용 애플리케이션 △고객 프로파일링을 돕는 ‘360 커스터머 뷰(360 Customer View)’ △시각적 구성 및 모니터링 기능 등을 갖추고 고객의 의사결정을 돕는 플랫폼으로, 클라우드와 온프레미스 등 다양한 환경에서 운용 가능하다.

아울러 코리아엑스퍼트는 오토 ML과 생성형 AI를 결합한 ‘자이언트(XAINT)’라는 모듈을 자체 개발해, 자동화된 시스템으로 고객의 데이터를 반영한 비즈니스 평가와 업무 개선 방안 도출 등을 서비스하고 있다.

유인지 대표는 “빅데이터, 생성형 AI, 의사결정 시스템은 서로 상호 협력할 수 있는 기술이다. 신기술에 대한 무조건적인 도입보다는 기업의 의사결정과 비즈니스 관점에서 기술에 접근하는 것이 중요하다”며 “데이터와 생성형 AI를 토대로 한 디지털 혁신을 실현하기 위해서는 단계별 목표 설정, 클라우드의 민첩하고 유연한 인프라뿐만 아니라, 데이터·통찰력·기술력·플랫폼의 중요성을 인식하는 기술에 대한 내재화와 조직 내 문화가 갖춰져야 한다”고 강조했다.

“포스트그레SQL의 리더 EDB가 제시하는 엔터프라이즈 데이터 전략”

오전 마지막 세션에서는 엔터프라이즈DB(EDB) 이강일 한국지사장이 ‘포스트그레SQL(PostgreSQL)의 리더 EDB가 제시하는 엔터프라이즈 데이터 전략’을 주제로 발표했다.

먼저 이강일 지사장은 오픈소스 SW의 장점을 △저렴한 비용 △시장 접근성 △배포의 유연성 △기업 혁신 △종속성 해결 △미래 혁신 등으로 제시하며, 오픈소스 데이터베이스 관리 시스템(DBMS)의 활용성을 강조했다. 이어 “챗GPT의 등장 이후 최근 2~3년간, 포스트그레SQL과 같은 오픈소스 제품들의 시장 선호도가 상용 SW의 선호도를 추월하며 혁신의 선두 주자로 자리매김하고 있다”고 덧붙였다.

데이터에 AI를 접목할 경우, 데이터 분석 및 예측, 자연어 처리, 개인화 및 추천 시스템 등을 바탕으로 혁신적인 솔루션 개발이 가능하며, 나아가 DB에 AI를 접목하면 데이터의 보안 및 탐지, 데이터 용량 최적화 등으로 활용할 수 있다는 것이 이강일 지사장의 설명이다.

최근 EDB는 ‘스플릿그래프’라는 서버리스 API 개발 스타트업을 인수하며, 자사 DB에 AI를 탑재하기 위한 준비를 하고 있다. 구체적으로 내년 말 EDB 포스트그레SQL 일부 기능에 AI를 접목한 플랫폼 출시를 계획 중이다.

이강일 지사장은 “데이터를 담는 그릇인 DB에 AI를 활용한다면 데이터 형태에 따라 가변적으로 용량을 줄이고 키울 수 있는, 사용자가 원하는 DB 형태를 구현할 수 있다”며 “AI로 인해 앞으로의 DB 제품은 어떠한 종류의 업무에도 모두 대응할 수 있는 ‘범용 DB’로 발전할 것으로 전망하고 있다. 이에 EDB도 AI 탑재 제품 및 API 연결 기술을 개발하고 있다”고 말하며 발표를 마쳤다.

오후 세션은 2개 트랙으로 나뉘어 핵심 데이터 인사이트와 전략을 공유하는 발표가 진행됐다.

트랙1은 ▲디리아 이동길 이사의 ‘생성형 AI와 빅데이터 도입 전략’ ▲클라우데라 김호중 전무의 ‘생성형 AI 서비스를 위한 오픈 데이터 플랫폼’ ▲엔코아 김선영 상무의 ‘효율적인 데이터 자산화를 지원하는 인공지능 기반 데이터 관리와 활용 전략’ ▲리비젼컨설팅 전용준 대표의 ‘챗GPT 시대의 기업 데이터 분석 혁신: 현재와 과제’ 등의 세션이 마련됐다.

트랙2에서는 ▲퍼즐데이터 김영일 대표의 ‘프로세스 마이닝, 분석을 넘어 AI 예측, 시뮬레이션 활용까지 디지털 혁신 플랫폼’ ▲데이터스트림즈 김현철 전무의 ‘디지털 전환을 위한 데이터 패브릭 전략’ ▲데이타벅스 조외현 대표 컨설턴트의 ‘생성형 AI와 온라인 머신러닝: CDC 및 지능형 통합의 필요성’ ▲티맥스티베로 성기훈 상무의 ‘4세대 IT 플랫폼을 위한 티베로 DBMS 전략’ 등의 발표가 진행됐다.

“생성형 AI와 빅데이터 도입 전략”

트랙1의 첫 번째 세션은 디리아 이동길 이사가 맡아 ‘생성형 AI와 빅데이터 도입 전략’에 대해 발표했다.

이동길 이사에 따르면 생성형 AI는 크게 콘텐츠 선택, 처리 프로세스 선정, 모델 학습, 아키텍처 구성 등의 단계를 거쳐 개발된다. 각 단계를 세부적으로 살펴보면, 우선 콘텐츠 측면에서 텍스트, 이미지, 비디오 등 어떤 콘텐츠를 생성할지에 따라 모델의 종류가 달라진다. 텍스트 생성에는 LLM, 이미지에는 GAN, 비디오에는 VAE가 주 모델로 사용되고 있다.

다음으로 자연어를 처리하기 위한 프로세싱인 NLP 과정이 요구된다. NLP는 데이터 전처리부터 알고리즘 구성, 모델 트레이닝의 과정으로 이어진다. 자연어 처리 이후에는 ML 혹은 딥러닝 과정을 거쳐야 한다. ML은 정형 데이터 처리, 딥러닝은 언어와 이미지 등 비정형 데이터 처리에 특화된 방식이다. 딥러닝을 진행한다면 정확도 개선을 위한 아키텍처 ‘트랜스포머(Transfomer)’도 수반돼야 한다.

이어서 이동길 이사는 기업들의 생성형 AI 활용 현황과 전망을 공유했다. 이 이사는 “최근 기업들은 주로 검색, 추천, 챗봇 등에 AI를 접목해 활용하고 있다. 향후 생성형 AI는 특히 검색과 챗봇 영역에 큰 영향을 미칠 것이며, 장기적으로는 마케팅과 인프라 관리 영역으로도 확산될 것으로 보고 있다”면서도 “현재 기업들의 데이터 활용 상황을 보면, 조직 내부 데이터가 사일로(Silo)화돼 구축되고 있다. 각자 검색 데이터 결과를 통합검색으로 번거롭게 다시 모아 새롭게 구축하는 등 대부분 AI 기술이라기 보다는 일반적인 검색 기술을 많이 사용하고 있다. 아직까지는 의미검색 측면에서의 퀄리티는 많이 부족하다”고 설명했다.

이 이사에 따르면, 기업 DB 기반의 효율적인 생성형 AI 활용을 위해서는 ‘벡터(vector)’ 방식의 텍스트 인코딩 기술이 도입돼야 한다. 이전까지는 DB 문서 내 검색 단어가 얼마나 나타났는지 카운트해 단어의 중요도를 체크하는 ‘TF-IDF’ 방식이 주로 사용돼 왔다. 최근에는 단어를 벡터화해 단어 간 인접성과 유사도를 분석하는 ‘워드투벡(Word2Vec)’ 방식이 생성형 AI 활용에 쓰이고 있다. TF-IDF는 DB 내부에 존재한 단어만 검색할 수 있는 것에 반해, 벡터 기반 모델은 의미적 연계 검색도 가능해 기업들의 생성형 AI 활용을 위한 기술로 주목받고 있다.

이와 관련 디리아는 오픈소스 벡터 검색엔진 ‘엘라스틱서치(Elasticsearch)’를 기반으로, 기업들의 생성형 AI 활용도 향상을 위한 사업들을 진행하고 있다. 엘라스틱서치는 통상적인 단어 카운트 방식의 ‘BM25’ 키워드 검색 모델부터 벡터 검색 모델, 그리고 이 2가지를 합한 하이브리드 검색까지 총 3가지 형태의 검색 시스템을 제공한다. 사용자가 챗GPT와 연동된 엘라스틱서치로 검색할 경우, 벡터화된 기업 내부 모든 데이터를 검색엔진이 읽고 유사성이 높은 문서의 내용을 자동으로 추가한다. 이를 바탕으로 컨텍스트가 있는 프롬프트를 구성해 챗GPT에게 더욱 구체적인 질의를 전달하고 정확도가 향상된 답변을 제공받을 수 있다.

“생성형 AI 서비스를 위한 오픈 데이터 플랫폼”

트랙1 두 번째 세션은 클라우데라 김호중 전무가 ‘생성형 AI 서비스를 위한 오픈 데이터 플랫폼’을 주제로 발표를 진행했다.

김호중 전무는 생성형 AI 트렌드에 대해 얘기했다. 가트너의 ‘생성형 AI 하이프 사이클’에 따르면 현재 생성형 AI 워크로드와 파운데이션 모델은 시장에서 가장 앞서나가고 있는 개발 영역이며, 벡터 DB와 에지 LLM 등이 시장에서 점차 주목받고 있는 상황이다. 아직까지 생성형 AI는 기술 트렌드상 초기 단계지만, 지속적인 기술 발전이 이뤄지고 있어 아이폰이 등장했을 때와 같은 지대한 영향을 미칠 것이라는 것이 김호중 전무의 설명이다.

최근의 시장 동향을 살펴보면, 오픈AI(OpenAI)와 앤트로픽(Anthropic)을 선두로 AWS, 마이크로소프트(MS), 구글 등의 빅테크 기업들이 자체 AI 모델과 서비스 개발에 앞장서고 있다. 특히 정보 보안성을 확보하고자 상용화된 API 서비스 외의 기업 자체적으로 소형 언어 모델(sLLM)과 프라이빗 LLM을 구축하려는 수요도 크다.

이와 관련해 클라우데라는 자사 솔루션 ‘AMP(Applied ML Prototypes)’와 ‘CML(Cloudera Machine Learning)’ 기반의 LLM 지원을 서비스하고 있다. AMP는 개발자가 아닌 직업군의 사용자 누구나 클릭 몇 번만으로 간편하게 LLM을 체험해 볼 수 있는 프로토타입 솔루션이다. CML 기반에서는 데이터 분석가들이 자체 시스템에 따로 오픈소스 모델을 설치·배포하는 과정 없이, UI로 ‘주피터(Jupyter)’와 같은 툴들을 자유롭게 사용할 수 있다.

김호중 전무는 클라우데라 솔루션을 활용해 생성형 AI 서비스를 구현한 사례로 싱가포르 OCBC은행의 구축 사례를 소개했다. 김 전무는 “OCBC은행은 CML을 기반으로 3가지의 생성형 AI 서비스를 개발해 활용 중이다. 먼저 코드 생성 기능으로 개발자의 생산성 향상을 돕고, 기존에 생성된 코드도 점검해 코딩 문제를 해결하는 ‘OCBC 윙맨(OCBC WINGMAN)’이 구축됐다. 다음은 ‘OCBC 위스퍼(OCBC WHISPER)’ 서비스로 생성형 AI를 통해 고객 응대 평균 시간을 단축했으며, 상담 통화 내용을 자동으로 기록하고 요약하는 기능이 제공되고 있다. 마지막으로 싱가포르 및 동남아 지역의 언어적 특성을 학습한 ‘OCBC 도큐먼트 AI(OCBC DOCUMENT AI)’를 활용해 내부 문서 요약과 문서 정리 시간을 단축했다”며 “OCBC은행은 자사 CML 플랫폼을 기반으로 손쉽게 다양한 오픈소스를 업로드하고 활용해 유의미한 서비스를 구현할 수 있었다”고 설명했다.

“효율적인 데이터 자산화를 지원하는 인공지능 기반 데이터 관리와 활용 전략”

엔코아 김선영 상무는 트랙1 세 번째 세션에서 ‘효율적인 데이터 자산화를 지원하는 인공지능 기반 데이터 관리와 활용 전략’을 주제로 발표했다.

김선영 상무는 데이터의 효율적 활용에 관해 기업 담당자들이 이야기하는 현업의 목소리를 공유했다. 김 상무는 최근 많은 기업들이 데이터 형태의 다양화, 이기종 DB에 분산된 데이터 활용의 어려움, 불분명한 데이터 소유 권한, 데이터 업데이트의 누락 및 전사 차원의 AI, ML 활용을 위한 솔루션과 기술 부족 등의 어려움들을 겪고 있다고 설명했다.

이에 대해 김 상무는 “많은 데이터를 쌓아만 둔다면 진정한 자산이 아니다. 데이터를 분석하고 활용하기 위해서는 ‘데이터 자산화’ 과정이 필수적이다”라며 “데이터 자산화는 기업이 데이터를 효율적으로 관리하고 활용해 성과를 창출할 수 있도록 하는 체계로, 데이터 거버넌스를 통해 장기적으로 데이터 포털과 마켓스토어를 구성하고 조직의 데이터 리터러시를 극대화하는 과정이다”라고 설명했다.

이어 김 상무는 “데이터 거버넌스는 조직, 전략 및 지침, 프로세스 등 모든 관련 사항들을 고려해, 데이터 관리 체계를 정의하고 데이터 관리 지침을 만드는 등 일련의 과정을 시스템화하는 것이 목표다. 이 같은 프로세스는 기존 업무시스템의 데이터를 모두 모아 데이터 자산 현황을 만들고, 데이터셋 간의 연관성을 찾아 데이터 맵을 만드는 초기 기반부터 출발된다. 기업 업무에 맞는 형태로 데이터를 정제하고 데이터 식별을 위한 의미 부여와 연관 솔루션 연계도 필요하다”고 덧붙였다.

엔코아는 이에 착안해 고객의 데이터 자산화를 지원하는 ‘데이터웨어 DA# AI 파워드 팩(DATAWARE DA# AI Powered Pack)’ 솔루션을 서비스하고 있다. 해당 솔루션은 생성형 AI GPT 모델을 활용해 △데이터 표준화 △컬럼명 추론 및 상세화 △요구사항 분석 △업무쿼리 분석 △유사 컬럼 분석 △비즈니스 분류 △모델링 가이드 등 고객의 데이터 모델 구축 전 과정을 돕는다.

엔코아는 이러한 데이터 관리부터 분석, 활용, 나아가 보안까지 강구된 엔드 투 엔드 풀스택 데이터웨어 솔루션을 공급해, 고객사의 총소유비용(TCO) 및 모델 구축에 드는 소요 시간을 절감하겠다는 방침이다.

“챗GPT 시대의 기업 데이터 분석 혁신: 현재와 과제”

트랙1 마지막 세션은 ‘챗GPT 시대의 기업 데이터 분석 혁신: 현재와 과제’를 주제로 리비젼컨설팅 전용준 대표가 발표를 맡았다.

올해 소프트웨어정책연구소 조사 결과에 따르면 챗GPT의 등장으로 AI에 대한 기업들의 관심도는 높아졌지만, 실제 자원 투입 대비 성과를 얻었다는 답변은 절반을 넘기지 못했다. 이를 두고 전용준 대표는 데이터 분석과 결과가 실제 업무로 연결되지 않았다는 점을 원인으로 지적했다.

그럼에도 챗GPT는 △데이터 전처리 △텍스트 생성 및 요약 △질의응답 시스템 구축 △고객 상담 및 지원 △인사이트 도출과 예측 △모델 개선과 피드백 등을 지원하는 데이터 분석 도구로 활용할 가능성이 크다는 게 전용준 대표의 설명이다. 구체적으로 챗GPT는 업종별 특수성이 반영된 데이터 분석 기획의 생산성과 품질을 향상시킬 수 있으며, 프로그래밍 부문에서 난이도가 높은 로직의 경우에도 유용한 코드를 제공해 개발자의 업무 자동화를 지원할 수 있다. 나아가 챗GPT는 데이터 분석 관점에서 데이터 가공, 해석, 대책 수립의 역할까지도 가능해지고 있다.

이에 대해 전 대표는 “현재 생성형 AI 시대와 이전 시기의 데이터 분석을 비교해 보면 생성형 AI의 보편화로 데이터 분석 수준이 고도화됐으며, 데이터 분석가들에게는 기존 방법론에서는 도달하기 어려웠던 새로운 가능성을 제공하게 됐다. 특히 생성형 AI는 효율성 및 자동화, 고급 분석, 실시간 분석, 자연어 처리 및 시각화, 맞춤형 모델 개발, 데이터 품질 개선 등 데이터 분석 전 과정을 지원할 수 있는 역량을 이미 갖췄다. 특히 워크플로 측면에서는 생성형 AI가 데이터 분석 결과를 문서화하고 별도의 산출물 작업을 맡아, 분석가 간의 효율적인 협업이 가능하다. 이를 통해 기업의 전체적인 생산성 역시 향상될 것이다”라고 전망했다.

전용준 대표는 생성형 AI 기반의 데이터 분석 혁신을 위한 향후 비즈니스 핵심 과제로 △패스파인더 프로젝트 수행을 통한 생성형 AI 도구 유용성 검증 및 활용 방법 개발 △생성형 AI 도구의 특성 및 한계에 대한 정확한 파악 △생성형 AI가 제공하는 기능을 활용한 새로운 분석 주제, 새로운 분석 방식 발굴 △분석가들의 생성형 AI 활용 역량 강화와 훈련 △데이터 분석에 대한 전사적 전략 수립, 최신화 및 실행 등을 제시했다.

“프로세스 마이닝, 분석을 넘어 AI 예측, 시뮬레이션 활용까지 디지털 혁신 플랫폼”

트랙2 첫 번째 세션은 퍼즐데이터 김영일 대표가 ‘프로세스 마이닝, 분석을 넘어 AI 예측, 시뮬레이션 활용까지 디지털 혁신 플랫폼’을 주제로 발표를 진행했다.

먼저 김영일 대표는 프로세스 마이닝(Process Mining)의 개념과 자사 솔루션 ‘프로디스커버리’를 소개했다. 프로세스 마이닝은 프로세스 이노베이션(Process Innovation)과 데이터 마이닝(Data Mining)을 결합한 합성어로, 데이터 분석 단계 중 데이터 수집 이후의 가시화 단계와 데이터 활용으로 이어지는 연결 역할을 하는 툴이라는 것이 김 대표의 설명이다.

퍼즐데이터는 자체 개발 프로세스 마이닝 플랫폼 프로디스커버리(ProDiscovery)를 온프레미스와 SaaS 서비스로 제공하고 있다. 해당 솔루션은 고객사가 업무에 활용한 ERP(전사적 자원 관리)와 CRM(고객 관계 관리)으로부터 비롯된 케이스 아이디(Case ID), 타임 스탬프(Time Stamp), 액티비티(Activity) 등 3가지의 데이터를 바탕으로 가시화된 프로세스 맵을 생성한다. 이를 통해 고객행동 로그, 처리된 작업 데이터 등의 수 많은 로그들의 프로세스 개요와 다양한 통계를 대시보드로 시각적으로 파악할 수 있으며, 실제 프로세스와의 차이점과 에러 발생 여부도 분석할 수 있다.

퍼즐데이터는 이 같은 기능을 갖춘 프로디스커버리 플랫폼을 주로 금융권과 공정 업무 고객사에 도입하고 있다. 가령, 금융 상품 가입자의 웹사이트 내 행동 패턴 분석과 어떤 경로에서 금융 가입 이탈이 발생하는지 등의 데이터를 차트가 아닌 프로세스 맵을 바탕으로 세밀한 분석이 가능하다. 특히 리얼타임 분석과 시뮬레이션 기능도 제공해, 사후 분석을 넘어 프로세스 예측까지도 할 수 있도록 해 기존에 데이터 전문가에게 의존하던 업무 예측을 객관적인 지표로 파악할 수 있다.

이와 관련, 김영일 대표는 프로디스커버리에서의 시뮬레이션 및 ML 모델 활용 방안도 제시했다. 김 대표는 “고객 행동 분석과 예측을 통해 산출된 프로세스 패턴 데이터를 다시 한번 ML과 시뮬레이션 툴을 적용해 분석할 수 있다”며 “프로디스커버리에는 ML 학습 프레임워크가 탑재돼, 데이터가 DB에 업데이트되면 실시간으로 프로세스 맵을 생성하고 있다. 이를 바탕으로 고객이 정의한 표준 프로세스를 벗어난 사항들을 실시간 리얼타임 모니터링으로 확인할 수 있어 프로세스 마이닝 분석의 자동화가 가능해졌다”고 강조했다.

“디지털 전환을 위한 데이터 패브릭 전략”

데이터스트림즈 김현철 전무는 ‘디지털 전환을 위한 데이터 패브릭 전략’을 주제로 발표했다.

김현철 전무에 따르면, 최근 기업들은 데이터 웨어하우스(DW), 데이터 레이크(DL) 등 여러 시스템을 구축해 축적한 데이터는 많아졌지만, 데이터 분산 및 사일로화와 같은 문제들로 인해 실질적인 데이터 자원 관리와 활용에는 어려움을 겪고 있다. 이에 대한 해결책으로 ‘데이터 패브릭(Data Fabric)’이 주목받고 있다.

데이터 패브릭은 여러 시스템에 분산된 이기종 간의 데이터를 하나의 단일 가상화 시스템으로 통합해, 흩어져 있는 데이터에 대한 액세스와 관리를 단순화할 수 있는 기술이다. 이를 활용해 데이터 레이크와 클라우드에 저장된 데이터, 나아가 비정형 데이터까지 가공·처리할 수 있다.

이에 대해 김현철 전무는 “데이터 패브릭 구현에 앞서, 거버넌스 구축과 데이터 표준화 작업이 우선적으로 이뤄져야 한다. 수많은 설비와 디바이스에서 생성되는 데이터를 어떻게 모을 것이며, 데이터 수집의 우선순위와 생명주기까지 모든 과정이 거버넌스 차원으로 정의가 돼야 한다”고 당부했다. 데이터 거버넌스와 메타데이터를 통해 분산된 모든 데이터가 정형화돼야, 데이터 패브릭과 함께 유의미한 데이터 분석 및 활용이 가능하다는 설명이다.

데이터스트림즈는 데이터 패브릭 아키텍처 ‘테라원(TeraONE)’을 서비스하고 있다. 자사의 ‘이루다(IRUDA)’ 솔루션을 바탕으로 데이터 거버넌스를 전체적으로 통합하며, 데이터 패브릭 플랫폼인 ‘테라원 슈퍼쿼리(TeraONE SuperQuery)’를 활용해 다중 DB 가상화와 데이터 분석 기능을 제공한다. 데이터스트림즈는 테라원 슈퍼쿼리를 기반으로 공공 보험 정책수립을 위한 재정추계 분석 및 요율 시뮬레이션의 데이터 패브릭 구축 사업에 참여한 바 있다. 또한 금융권 생보사의 빅데이터 플랫폼 구축 및 서비스 개발과 AI 분석 환경 마련을 위한 데이터 패브릭을 구축한 사례도 있다.

“생성형 AI와 온라인 머신러닝: CDC 및 지능형 통합의 필요성”

트랙2 세 번째 세션은 ‘생성형 AI와 온라인 머신러닝: CDC 및 지능형 통합의 필요성’을 주제로 데이타벅스 조외현 대표 컨설턴트가 발표를 맡았다.

조외현 컨설턴트는 “온라인 ML이란 일괄 학습을 거치며 일회적이고 간헐적으로 작업이 일어나는 기존 모델과 달리 실시간으로 적응형 학습을 수행, 풍부한 데이터로 정확한 예측을 제공하는 기술을 의미한다”며 “적응성, 확장성, 그리고 실시간 예측 등의 장점으로 빠르고 비용 효율적인 의사결정에 기여한다”고 설명했다.

온라인 ML은 실시간성을 갖춘 만큼 빠르게 변화하는 날씨, 금융 등 분야의 애플리케이션에 유용하다. 또한 방대한 양의 데이터를 학습하는 것뿐 아니라 변화에 대응할 필요가 있는 생성형 AI에서도 사용 가능하다. 생성형 AI에 새로운 데이터가 채워지지 않는다면 과거 정보를 기반으로 올바르지 못한 대답을 내놓을 수 있기 때문이다.

온라인 ML 구현은 여러 솔루션이 함께 어우러져야 가능하다. 데이타벅스가 총판을 맡고 있는 ‘스트림(Striim)’은 CDC(변경 데이터 캡처) 솔루션으로 실시간 데이터 변화를 반영해 자연어 기반 생성형 AI 검색을 강화하는 역할을 맡는다.

조외현 컨설턴트는 “스트림은 DB에서부터 슬랙, 젠데스크, 구글 스프레드시트 등 여러 애플리케이션에 이르는 다양한 데이터를 실시간으로 확보, 벡터 DB로 전환해 LLM 서비스에 적용하는 중간 연결고리 역할을 맡는다. 특히 기존에는 실시간 데이터 캡처를 통한 가공 및 정제가 어려웠으나 현재는 인메모리(In-Memory) 기반으로 해결할 수 있게 됐다”고 말했다.

“4세대 IT 플랫폼을 위한 티베로 DBMS 전략”

트랙2 마지막 발표는 티맥스티베로 성기훈 상무가 ‘4세대 IT 플랫폼을 위한 티베로 DBMS 전략’을 주제로 진행했다. 먼저 성기훈 상무는 티맥스에서 바라보는 4세대 IT 환경을 정의했다.

성기훈 상무는 “IT 1세대는 1960년 IBM 기반의 메인프레임 환경이다. HW와 SW가 일체형을 이뤘고 비용 역시 초고가였다. 이후 다운사이징이 요구되면서 2000년 유닉스를 기반으로 2세대 IT 환경이 다가왔다. IBM과 오라클, 히타치, 후지쯔가 주도했으며 SW가 분리됐고 세분화됐다. 이후 2020년 리눅스&오픈소스를 중심으로 하는 3세대가 찾아왔다”면서 “3세대는 오픈소스가 대거 이용되면서 구축과 운영이 복잡하고 어려웠기에 이를 단순화하고자 하는 수요가 발생하기 시작했다. 이에 티맥스는 4세대 IT 환경으로 인프라부터 시스템SW, 응용SW까지 각 분야를 통합한 플랫폼을 꼽았다”고 설명했다.

4세대 IT 환경을 주도하기 위해 티맥스그룹에서 DB를 담당하는 티맥스티베로에서는 새로운 DBMS 제품과 전략을 수립했다. 서비스형 데이터베이스(DBaaS)의 확장된 개념인 DBAS(DB All Service)다.

이에 대해 성기훈 상무는 “당사가 새롭게 브랜딩한 DBAS는 기존 DBaaS의 구매·운영·관리 자동화에서 더 나아가 기술지원 서비스까지 포괄하는 더 큰 개념이다. 제품화될 예정인 ‘티맥스 DBAS’에는 상용 DB 최신제품인 ‘티베로 7’과 내년 출시될 예정인 ‘슈퍼 티베로’에 해당하는 상용 DB와 포스트그레스SQL 기반 패키징 제품인 ‘오픈 SQL’, ‘오픈 No SQL’ 등 오픈소스 DB도 포함시킬 예정이다. 특히 AI 기반 DB 장애관리도 가능하도록 지원할 예정이다”라고 강조했다. 이어 그는 “DBAS에 대한 기술지원 콘셉트는 AI를 기반으로 한다. AI 상담원 ‘A-챗’, 고객에게 피드백을 제공하는 ‘셀프-서비스’, SR 등록과 피드백을 알아서 해주는 ‘SR 자동화’ 등으로 구성될 예정이다”라고 덧붙였다.

특히 보다 통합된 IT 환경을 위해 티맥스는 티맥스 DBAS를 기반으로 애플리케이션 개발 스튜디오인 ‘가이아 스튜디오(GAIA Studio)’도 함께 공급한다는 계획이다. 가이아 스튜디오는 GUI 기반 드래그앤드롭 프로그래밍이 가능한 노코드 기술이 탑재된 프론트엔드 단 제품과 백엔드 제품으로 구성돼있다. 프론트엔드 단 제품으로는 △가이아 GX △가이아 MX △가이아 UX가 있으며, 백엔드에는 △가이아 DX △가이아 PX △가이아AX가 있다.

한정호, 정종길, 박재현, 김호준 기자

상단영역

본문영역

[지상중계] “생성형 AI와 빅데이터로 혁신의 활로를 찾아라”

본지, 지난달 7일 ‘제20회 2023 데이터 컨퍼런스’ 개최

기사 댓글 0

비회원 로그인